Thảo luận:Tiến trình và phương pháp phân tích DNA của Rùa
Mục lục
Chủ đề 1[sửa]
"Sự sai khác về trình tự DNA đến mức độ nào thì được coi là vẫn thuộc 1 loài hay đã hình thành loài mới".
- Em nêu ý kiến: Trong trường hợp loài không phải là loài hiếm có thể sẽ có số liệu về mức độ sai khác cho phép của trình tự DNA trong ngân hàng dữ liệu. Trường hợp rùa Hồ Gươm và giải Thượng Hải là loài hiếm, số liệu này chắc không có được. Vậy ta có thể so sánh khoảng cách trình từ rùa Hồ Gươm và giải Thượng Hải với khoảng cách giữa các loài trong chi lân cận đã được thừa nhận (có thể cần giả thiết là sử dụng các gene tương tự nhau trong phân tích). Nếu khoảng cách giữa rùa hồ Gươm và giải Thượng Hải không nhỏ nhất thì ta "có cơ sở" để kết luận rùa Hồ Gươm là loài mới. Nếu khoảng cách đó chẳng may nhỏ nhất, thì người yêu thích giả thiết rùa Hồ Gươm là loài mới vẫn có cơ hội để xem xét: "khoảng cách rùa Hồ Gươm và giải Thượng Hải nhỏ một cách có ý nghĩa hay không?" Đây là bài toán kiểm định thống kê các giá trị cực biên. Giả sử ta vẽ tất cả các khoảng cách giữa các loài trong chi, phân họ và họ lân cận trên một đường thẳng, nếu điểm biểu diễn rùa Hồ Gươm - giải Thượng Hải nhỏ hơn khác biệt (có tiêu chuẩn cho mức ý nghĩa của "khác biệt" khi số điểm đủ lớn) thì giả thiết rùa Hồ Gươm là loài mới sẽ bị loại bỏ. Ngược lại ta "có cơ sở" để cho rằng rùa Hồ Gươm là loài mới.
Vì tôi cảm thấy khái niệm thế nào là loài đang còn tranh cãi (mới đọc qua ở species), nên tôi muốn biết ý nghĩa của việc phân định một sinh vật nào đó thuộc loài nào, hay thuộc một loài mới thì sẽ có ý nghĩa như thế nào?
-
Good
point!
đọc
thêm
ở
Why
Should
We
Care
about
Species?
Thọ
và
mọi
người
có
thể
tóm
tắt
bài
này
được
k?
Cao Xuân Hiếu (thảo luận) 01:47, 12/3/2011 (ICT)
Mời cùng đọc và tóm tắt lại tại bài Tại sao chúng ta quan tâm đến loài?
Em
có
đọc
được
một
bài
báo,
trong
đó
có
một
vài
ý
kiến
được
cho
là
của
PGS.TS
Lê
Trần
Bình.
Trong
bài
có
đoạn:
"PGS.TS
Lê
Trần
Bình
cho
rằng,
nếu
các
gen
chỉ
thị
khác
nhiều
(khoảng
10%)
so
với
những
loài
đã
được
mô
tả,
có
thể
kết
luận
là
loài
mới.
Tuy
nhiên,
cần
thận
trọng
và
phải
tuân
thủ
thông
lệ
quốc
tế
khi
chọn
gen
để
phân
tích".
Có
thể
xem
bài
báo
ở
đây.
Theo ý kiến của cá nhân em, sự sai khác DNA ở mức độ nào thì được coi là vẫn thuộc một loài hay hình thành loài mới còn phụ thuộc vào đoạn (hay những đoạn) DNA ta sử dụng để so sánh, vì mỗi gene có tốc độ tiến hóa không giống nhau.
- Ngoài mỗi đoạn trình tự có tốc độ tiến hóa (tần số đột biến xảy ra) khác nhau, ứng với mỗi một đơn vị phân loại taxon thì con số này lại khác nhau. Do đó, theo anh, phát biểu trên phải trích ra được 1 công trình nghiên cứu có uy tín đối với taxon và đoạn trình tự đang xét.
-
Cao Xuân Hiếu (thảo luận) 15:57, 20/4/2011 (ICT)
Em thấy con số 10% cũng thật quá sức tưởng tượng.
-
Lê Thị Trang (thảo luận) 18:50, 20/4/2011 (ICT)
- Nếu có thể xác định loài mới dựa trên số % thay đổi của gene thì ng nông dân sẽ đánh giá các nhà khoa học thật là nhàn nhã. Liệu những thuật toán để tính khoảng cách di truyền, mối quan hệ tiến hóa .v.v có cần được tiếp tục nghiên cứu nữa k? Nên lưu ý hiện nay lĩnh vực phân loại học phân tử vẫn chưa hình thành được cái gọi là quy trình chuẩn cho việc định danh loài. Điều đó có nghĩa là tất cả những tính toán như NJ, MP, ML, Bayers vẫn ko thỏa mãn được tất cả các trường hợp.
-
Cao Xuân Hiếu (thảo luận) 16:41, 20/4/2011 (ICT)
-
Đôi
khi
em
thấy
không
có
một
qui
trình
chuẩn
lại
hay.
Người
làm
việc
phải
nghĩ
cách
để
tối
ưu
hóa
quy
trình
và
điều
đó
kích
thích
sáng
tạo
ít
hay
nhiều.
Lúc
khác
lại
ước
có
qui
ước
chuẩn
rồi
để
mình
đỡ
phải
mò
mẫm.
Phạm Thạch Thảo (thảo luận) 20:57, 20/4/2011 (ICT)
Chủ đề 2[sửa]
"Liệu dữ liệu về DNA (phân loại học phân tử) có thể thay thế hoàn toàn phân loại truyền thống không? Tại sao"
- Cái này em nghĩ nên để sau khi tiến hành phân tích ta thảo luận thì hơn ạ. Khi đó mọi người có khái niệm vệ phân loại theo DNA và phân loại truyền thống là gì (thông qua thực hành.) Hiện giờ như em thì chưa biết gì để phát biểu cả.
-
Anh
muốn
nghe
ý
kiến
ở
tại
lúc
này
(có
thể
đúng,
có
thể
sai),
sau
khi
em
đã
đọc
lý
thuyết
tương
đối
rồi.
Cao Xuân Hiếu (thảo luận) 11:58, 23/3/2011 (ICT)
Những lập luận cho rằng có thể[sửa]
Em nghĩ hoàn toàn có thể thay thế được nếu đến một lúc nào đó việc phân loại bằng phân loại học phân tử trở nên hết sức dễ dàng (học sinh phổ thông cũng làm được chẳng hạn), không tốn kém và chính xác tuyệt đối.
-
Trang
có
thể
đưa
ra
những
lập
luận
chi
tiết
hơn,
hay
dẫn
chứng
rõ
ràng
hơn
để
bác
bỏ
những
ý
kiến
cho
rằng
không
thể
phía
dưới?
Cao Xuân Hiếu (thảo luận) 16:26, 17/4/2011 (ICT)
Do
đọc
đi
đọc
lại
em
cũng
không
thật
rõ
ý
của
các
anh
chị
và
cũng
do
kiến
thức
còn
ít
nên
em
không
phản
phản
biện
một
cách
cụ
thể
được,
Tuy
nhiên,
em
xin
mạnh
dạn
đưa
ra
một
số
quan
điểm
như
sau:
1. Em không lấy được ví dụ cho nhận định của anh Thọ: “có thể trong một số trường hợp thông qua so sánh kiểu hình, chúng ta có thể chỉ ra được các sinh vật có cùng tổ tiên hay không, trong khi đó nếu so sánh ADN chúng ta sẽ không thu được kết luận tương tự.” Anh Thọ có thể lấy ví dụ minh họa giúp em được không ạ? Xưa nay em thường thấy người ta dùng phân loại học truyền thống để phân loại sinh vật, đến khi phân loại học truyền thống “bó tay”, họ mới quay sang dùng phân loại học phân tử, em không biết có trường hợp ngược lại không?
2. Tiến hóa là sự biến đổi từ từ, cả về kiểu hình lẫn kiểu gen. Em tin rằng chẳng có loài nào hay nhóm sinh vật nào biến đổi kiểu hình một cách có ý nghĩa với tiến hóa mà kiểu gene vẫn không nhúc nhích gì cả.
3. Hiện nay người ta còn chưa biết rõ về di truyền học ngoại sinh nên việc kết luận nó có thực sự liên quan đến một trình tự Nu… nào đó hay nó có phải là một loại mã di truyền hay không thật khó để khẳng định ở đây. Hơn nữa, em nghĩ trong tương lai phân loại học phân tử sẽ không chỉ dừng lại ở việc so sánh các trình tự DNA hay Protein.
Hiện nay, dữ liệu phân tử chúng ta có còn quá ít và không phải ai cũng tiếp cận được với các dữ liệu này, nên việc phân loại bằng PLHPT còn phức tạp, tốn kém và thậm chí kém chính xác (vì như anh chị đã nêu ở trên, việc chọn đoạn trình tự để so sánh vẫn còn là một khó khăn). Đến khi nào chúng ta hiểu thật rõ cơ chế phân tử của sinh vật thì em tin phân loại học phân tử sẽ trở nên chính xác, không tốn kém và dễ thực hiện… Em hoàn toàn có thể dùng máy tính để bấm xem 1+1 bằng bao nhiêu, chỉ có điều em có thích làm thao tác đó hay không thôi.
Kết luận: em đồng ý là PLHPT không thể thay thế hoàn toàn PLHTT trong thời điểm hiện tại, nhưng trong tương lai thì điều này có thể xảy ra :d
- Anh hài lòng với câu trả lời của Trang. Đối với một số trường hợp như phân tích gene rRNA trên sinh vật nhân sơ, chúng ta đã có nguồn dữ liệu tương đối phong phú, đến mức đã thiết lập cơ sở dữ liệu cho những gene này. Từ đó, mỗi khi định danh một loài vi sinh vật, chỉ cần đọc rRNA rồi đưa vào (giống kiểu blast) lên cơ sở dữ liệu này. Kết quả sẽ thu được cây phân loại (giống cây taxonomy của blast NCBI) nhưng có mức độ phức tạp hơn đủ để kết luận về định danh loài đó. Tuy nhiên, chúng ta vẫn phải thừa nhận là còn có 1 tỷ phần lớn các loài vi sinh vật mà chúng ta chưa có cơ sở dữ liệu bởi vì chúng ko thể nuôi cấy hoặc bởi vì chúng phân bố ở những vùng sinh thái khó tìm kiếm (miệng núi lửa, mỏ dầu, suối nước nóng .v.v).
- Tuy nhiên, vẫn còn rất nhiều điều cần tranh luận, mời mọi người tiếp tục đặt câu hỏi và đưa ra các lập luận, dẫn chứng của mình.
-
Cao Xuân Hiếu (thảo luận) 19:42, 18/4/2011 (ICT)
Những lập luận cho rằng không thể[sửa]
Phân loại truyền thống dựa vào so sánh kiểu hình, còn phân loại học phân tử dựa vào so sánh DNA (kiểu gen). Mà kiểu hình và kiểu gen không phải bao giờ cũng thống nhất với nhau, chẳng hạn di truyền ngoại gen (epigenetics) không liên quan gì đến DNA. Như vậy, có thể trong một số trường hợp thông qua so sánh kiểu hình, chúng ta có thể chỉ ra được các sinh vật có cùng tổ tiên hay không, trong khi đó nếu so sánh ADN chúng ta sẽ không thu được kết luận tương tự.
-
Đúng
là
kiểu
hình
của
sinh
vật
là
kết
quả
của
sự
tương
tác
của
vật
liệu
di
truyền
với
"môi
trường".
Trong
đó,
vật
liệu
di
truyền
quy
định
kiểu
hình
thông
qua
trình
tự
nucleotide
(vd.
mã
di
truyền)
và
"cấu
hình"
của
các
nucleotide
(epigenetics
như
methylation,
acetylation
v.v.).
Tuy
nhiên,
kiểu
hình
như
vậy
(giả
sử
"ko
liên
quan
đến
trình
tự
nucleotide")
thì
cũng
ko
có
đặc
tính
di
truyền
và
biến
dị
của
vật
liệu
di
truyền,
do
đó,
nếu
dựa
vào
các
phân
bố
của
kiểu
hình
như
vậy
thì
làm
cách
nào
có
thể
xác
định
được
mối
quan
hệ
tiến
hóa
giữa
các
sinh
vật?
Cao Xuân Hiếu (thảo luận) 04:03, 24/3/2011 (ICT)
-
Cách
chọn
trình
tự
Nucleotide
và
so
sánh
kiểu
hình
ở
khía
cạnh
nào
đó
có
cùng
khó
khăn
như
nhau:
chọn
một
kiểu
hình
nào
đó
đặc
trưng
cho
loài
để
phân
biệt
cũng
khó
như
chọn
một
đoạn
DNA
nào
đó
để
phân
biệt
loài.
Ví
dụ
kiểu
hình
có
màu
da
biến
đổi
da
dạng
trong
quần
thể
thì
DNA
cũng
có
copy
number
variance
và
single
nucleotide
polymorphism.
Nếu
thuần
túy
dựa
trên
trình
tự
DNA,
rất
dễ
sinh
ra
trường
hợp
phân
một
loài
có
khả
năng
sinh
sản
cùng
nhau,
hoặc
giống
nhau
về
kiểu
hình,
thành
các
loài
con.
Vì
vậy
cách
nào
đó
ta
thỏa
hiệp
giữa
hai
phương
pháp:
chọn
gene
ít
nhiều
dựa
trên
kiểu
hình
và
kiểu
hình
ít
nhiều
dựa
trên
kiểu
gene
quy
định
nó
là
tốt
nhất?
Phạm Thạch Thảo (thảo luận) 13:58, 24/3/2011 (ICT)
-
Đi
vào
trường
hợp
nếu
chỉ
sử
dụng
dữ
liệu
DNA
(có
tính
variation
cao
hơn
nhiều
so
với
kiểu
hình)
và
gặp
tình
huống
"phân
một
loài
có
khả
năng
sinh
sản
cùng
nhau,
hoặc
giống
nhau
về
kiểu
hình,
thành
các
loài
con"
thì
chúng
ta
có
thể
đặt
những
ngưỡng
(threshold)
nhất
định
để
xác
định
khoảng
cách
nào
là
cùng
loài,
dưới
loài,
cùng
các
taxon
trên
loài.
Thảo
nghĩ
có
thể
khả
thi
không?
Cao Xuân Hiếu (thảo luận) 14:07, 24/3/2011 (ICT)
-
Em
nghĩ
về
lý
thuyết
có
thể
làm
vậy:
threshold
có
thể
chọn
một
cách
tối
ưu
về
mặt
lý
thuyết
sao
cho
phân
loại
là
tốt
nhất
(ví
dụ:
xác
định
số
cluster
của
wiki)
.
Về
thực
hành
theo
hiểu
biết
của
em
thực
ra
không
làm
được,
tức
là
không
thể
tìm
được
threshold
tối
ưu
như
mong
muốn
vì
lý
do
các
nhóm
trong
thực
tế
tính
toán
rất
phân
tán
(đây
thực
sự
là
vấn
đề
xác
định
số
các
cluster
trong
clustering
mà
em
đang
gặp
rắc
rối
trong
một
bối
cảnh
khác.)
Vậy
ý
em
nói
ở
trên
có
thể
phát
biểu
theo
cách
anh
Hiếu
là:
"ta
phải
chọn
threshold
sao
cho
không
vi
phạm
các
phân
loài
truyền
thống
đã
biết."
Phạm Thạch Thảo (thảo luận) 22:32, 24/3/2011 (ICT)
- "ta phải chọn threshold sao cho không vi phạm các phân loài truyền thống đã biết." đấy đúng là cách mà hiện nay các nhà phân loại học phân tử đang dùng. Xây dựng mô hình sao cho nó fit nhất với các phân loại truyền thống, những khác biệt nhỏ sẽ là phát kiến mới. Thảo làm về k-mer ah? nhiều người cũng đang dùng nó trong bài toán assembly dữ liệu từ NGS hoặc làm comparative genomics analysis (phân tích dữ liệu genome của các loài khác nhau, một bài toán tổng quát hơn so với bài toán phân loại học phân tử mà chúng ta làm ở đây).
-
Đi
vào
trường
hợp
nếu
chỉ
sử
dụng
dữ
liệu
DNA
(có
tính
variation
cao
hơn
nhiều
so
với
kiểu
hình)
và
gặp
tình
huống
"phân
một
loài
có
khả
năng
sinh
sản
cùng
nhau,
hoặc
giống
nhau
về
kiểu
hình,
thành
các
loài
con"
thì
chúng
ta
có
thể
đặt
những
ngưỡng
(threshold)
nhất
định
để
xác
định
khoảng
cách
nào
là
cùng
loài,
dưới
loài,
cùng
các
taxon
trên
loài.
Thảo
nghĩ
có
thể
khả
thi
không?
Em nghĩ Ngưỡng là giới hạn (trên hay dưới) mà một sự vật hay sự việc nếu vượt qua giới hạn đó sẽ chuyển sang một trạng thái khác. Trong ví dụ về việc xác định xem hai nhóm sinh vật có phải là một loài hay không: Ngưỡng là giới hạn trên cho phép của sự sai khác giữa hai nhóm đó khi chúng là một loài , nếu sự sai khác vượt khỏi ngưỡng thì chúng là hai loài khác nhau.
-
Vì
vậy
vậy
việc
chọn
ngưỡng
để
cắt
rất
quan
trọng.
Trong
một
số
biểu
diễn
cây
theo
mình
biết
thường
đô
cao
của
"lá"
thể
hiện
khoảng
cách
mà
Trang
nói,
cắt
ở
một
mức
nào
đó
tức
là
xác
định
khoảng
cách
tối
đa
cho
phép
trong
một
loài.
Phạm Thạch Thảo (thảo luận) 19:38, 23/4/2011 (ICT)
Như vậy phân loại học phân tử được xây dựng dựa trên phân loại truyền thống, không có phân loại truyền thống sẽ không có phân loại học phân tử. Mình không rõ là khi có những khác biệt nhỏ giữa phân loại học phân tử với phân loại truyền thống người ta sẽ phải giải quyết thế nào. Nếu phân loại học phân tử được xây dựng dựa trên phân loại truyền thống thì phân loại truyền thống sẽ là tiêu chuẩn vàng phải không?
-
Tôi
cho
là:
Gọi
tiêu
chuẩn
vàng
không
đúng
lắm,
bởi
vì
trong
nhiều
trường
hợp
phân
loại
cổ
điển
không
phân
loại
được
các
trường
hợp
như
rùa
Hồ
Gươm
chẳng
hạn.
Một
cách
đại
khái,
các
phân
loại
ở
xa,
các
họ
xa
nhau
của
phân
loại
cổ
điển
có
độ
tin
cậy
cao
nên
phân
loại
DNA
phải
validate
trên
số
liệu
này,
mặt
khác
các
loài
lân
cận
độ
tin
cậy
cổ
điển
kém
chính
xác
hơn
và
hiệu
chỉnh
từ
DNA
là
quan
trọng.
Về
mặt
lý
thuyết,
mình
nghĩ
có
thể
coi
trình
tự
DNA
như
một
yếu
tố
bổ
sung
vào
dữ
liệu
phân
loại
cổ
điển,
ngang
với,
chẳng
hạn
màu
da
của
sinh
vật.
Điều
khác
biệt
là
DNA
có
tính
hiệu
quả
cao
trong
phân
loại
hơn
là
màu
da,
nhưng
vẫn
không
quyết
định
tất
cả.
(Chú
ý
nếu
ta
phân
màu
da
thành
trắng-vàng-đen,
thì
còn
có
các
mức
trung
gian
hơi
vàng,
hơi
đen,
thậm
chí
đo
được
cường
độ,
và
vì
vậy
ta
gặp
tình
huống
giống
hệt
phân
loại
DNA
khi
phải
put
các
threshold!)
Phạm Thạch Thảo (thảo luận) 01:06, 30/3/2011 (ICT)
Chủ đề 3[sửa]
"Ưu và nhược điểm của cây phát sinh chủng loài được tạo ra từ thuật giải NJ, ML hoặc MP"
- tham khảo Giới thiệu về Phylogeny, các bước cơ bản tiến hành, Giới thiệu về phylogenomics của anh Trần Hoàng Dũng
Em
xin
trả
lời:
(Nhiệm
vụ
của
nhóm
2
là
cây
PSCL
tạo
ra
từ
giải
thuật
ML).
Cây
phát
sinh
chủng
loại
được
tạo
ra
từ
giải
thuật
ML
(tức
là
cây
có
xác
suất
cao
nhất)
cho
đến
nay
được
coi
là
cây
phát
sinh
có
độ
tin
cậy
lớn
nhất,
nên
em
chưa
nghĩ
ra
nhược
điểm
của
nó
là
gì.
Nhưng
giải
thuật
ML
(Maximum
likelihood)
thì
có
một
số
ưu,
nhược
điểm
sau:
Ưu điểm:
- Độ tin cậy cao
- Xét được tất cả các trường hợp có thể, sử dụng triệt để thông tin
- Có thể dùng để kiểm tra lại kết quả của các giải thuật khác
- Có thể phân biệt tần số đột biến đồng hoán và dị hoán (phụ thuộc vào mô hình giả thuyết chấp nhận khi sử dụng phương pháp, ví dụ: mô hình Kimura...)
Nhược điểm:
- Tốn thời gian
- Số lượng phép tính quá lớn
- Không khả thi khi lượng dữ liệu nhiều
...
Có thể nhược điểm của Maximulikehood (một cách khái quát trong thống kê) là ở chỗ chưa tận dụng được thông tin ban đầu trước khi phân tích (prior probability); khó ước lượng độ tin cậy. Hai đặc điểm đó thường khắc phục bằng Bayesian probability và Bootstrap.
-
Về
vấn
đề
này
mình
thắc
mắc:
Tại
sao
chúng
ta
không
sử
dụng
trực
tiếp
scoring
trong
alignment
của
hai
sequence
(với
substitution
matrix
chẳng
hạn
BLOSUM)
làm
khoảng
cách
cho
cây
phân
loài.
Hoặc
ngược
lại
nếu
chúng
ta
dùng
một
trong
số
những
giải
thuật
xây
dựng
cây
phân
loài
này,
về
nguyên
tắc
substitution
matrix
cũng
phải
được
xây
dựng
sao
cho
tương
đồng
với
nó
-
do
đó
kết
quả
alignment
sẽ
phụ
thuộc
cả
vào
cách
chọn
giải
thuật
xây
dựng
cây
nữa?
Phạm Thạch Thảo (thảo luận) 20:36, 11/5/2011 (ICT)
-
Thảo
diễn
giải
ý
của
mình
rõ
ràng
hơn
được
k?
Ở
đây
có
3
loại
kết
quả:
1)
alignment;
2)
bảng
distance
matrix
và
3)
cây
phân
loài.
Chúng
ta
có
3
nhóm
công
cụ
A)
thuật
toán
bắt
cặp
(ảnh
hưởng
đến
(1));
B)
thuật
toán
di
truyền/tiến
hóa/thay
thế
(ảnh
hưởng
đến
(2),(3));
C)
thuật
toán
dựng
cây
phân
loài
(ảnh
hưởng
đến
(3)).
Cao Xuân Hiếu (thảo luận) 20:45, 11/5/2011 (ICT)
-
Em
thấy
diễn
đạt
cũng
khó,
có
lẽ
như
sau:
Trong
alignment
ta
đã
cố
gằng
xác
định
mức
độ
tương
tự
giữa
hai
trình
tự
sao
cho
score
là
lớn
nhất,
vậy
score
này
có
thể
đóng
trực
tiếp
vai
trò
là
distance
giữa
chúng
(thực
ra
là
similarity,
ngược
lại
về
dấu
với
distance)?
Score
đó
sử
dụng
ma
trận
substitution
BLOSUM
(tương
tự
protein
sequence),
mà
xây
dựng
ma
trận
này
phụ
thuộc
vào
giải
thuật
xây
dựng
cây
phân
loài
(theo
em
được
biết
người
ta
dùng
Most
Parsimony),
tức
là
ngầm
công
nhận
trong
nó
một
giải
thuật
cây
phân
loài
rồi.
Nói
cách
khác,
khi
align
ta
dùng
ma
trận
BLOSUM
hoặc
một
hệ
thống
tính
score
nào
khác
tức
là
ngầm
sử
dụng
một
giải
thuật
cho
cây
phân
loài
và
thậm
chí
mô
hình
tiến
hóa
cho
cây
phân
loài
đó?
Phạm Thạch Thảo (thảo luận) 21:47, 11/5/2011 (ICT)
-
Suy
luận
rất
thú
vị.
Chúng
ta
có
thể
kiếm
chứng
suy
luận
này
với
những
dữ
liệu
đang
có.
Cao Xuân Hiếu (thảo luận) 23:12, 11/5/2011 (ICT)
-
Suy
luận
rất
thú
vị.
Chúng
ta
có
thể
kiếm
chứng
suy
luận
này
với
những
dữ
liệu
đang
có.
Chủ đề 4[sửa]
"Hãy chia sẻ kinh nghiệm của bạn để tìm kiếm thông tin, bài báo và sách hiệu quả trên internet"
Ai đó, làm ơn hãy chia sẻ ở chủ đề này đi ạ!
Chủ đề 5[sửa]
"Quản lý tài liệu tham khảo và trích dẫn nó như thế nào trong 1 văn bản khoa học cho hợp cách và logic?"
Em biết một cách là dùng Endnote.
Chủ đề 6[sửa]
"Những gì thú vị bạn mới học được khi sử dụng mã wiki mà bạn nghĩ là sẽ hữu ích cho học viên khác?"
- Thành viên:Khiếu Phương Lan/Note: cách ghi tên vào thời gian biểu
- Thành viên:Khiếu Phương Lan/Note: cách điều chỉnh " bản đánh giá nhiệm vụ từng cá nhân "
Chủ đề 7[sửa]
"Ý nghĩa và cách đọc thông tin của một cây phát sinh chủng loài"
Cái này hơi lạc đề về clustalw, nhưng em k biết viết vào đâu cho hợp lý: dùng phần mềm nào để xem tree ạ? Sau khi đã chạy tree và boostrap tree rồi... Thêm nữa annotation đưa vào thế nào ạ?
Tree Format: [1]
Read tree (newich tree format) [2] from packages "ape".
- Các phần mềm tạo cây BioEdit/MEGA/Mesquite thường tích hợp luôn bộ xem và đọc cây. Nếu cài ngoài thì thường dùng TreeView (nhỏ gọn), còn nâng cao thì dùng TreeGraph2
-
Cao Xuân Hiếu (thảo luận) 12:30, 10/5/2011 (ICT)
- Ba trong số đó em không cài được kể cả tree view. Về vấn đề annotation: ta thực hiện edit file .ph? Em đã thử nhưng kết quả làm phylo tương đối khó nhìn.
Em
đang
dùng
treeview,
nhưng
em
cũng
không
biết
làm
thế
nào
để
cho
tên
loài
vào
cả,
các
anh
chỉ
cho
em
với
ạ.
- Thứ nhất, có thể cho tên loài vào 1 cách thủ công trên BioEdit, hoặc MEGA.
- Thứ 2, xem lại quy trình để tìm đâu là nguyên nhân mất tên loài, tìm cách loại bỏ. Hoặc nếu có thể Thảo tìm cách dùng R để gắn lại tên loài.
-
Cao Xuân Hiếu (thảo luận) 19:27, 13/5/2011 (ICT)
-
Em
gắn
lại
với
R
rồi
[3],
theo
cách
nhận
file
vào
là
tree
từ
clustalw
và
một
file
annotation
hai
cột
(cột
đầu
là
ID,
cột
thứ
hai
là
tên
loài
hoặc
các
thông
tin
khác
muốn
gắn
vào,
hai
cột
cách
nhau
bởi
một
tab)
cho
ra
một
file
là
tree
đã
gắn
tên.
Nếu
ta
muốn
tên
đầy
đủ
hơn
thì
để
file
annotation
dài
hơn.
Jalview
có
mục
load
annotation
file
[4]
nhưng
em
thấy
cũng
rắc
rối.
File
annotation
sẽ
rất
có
ích
khi
cần
nhóm
các
cá
thể
trong
một
loài
với
gói
ape,
vì
vậy
để
tiện
sau
này
ta
nên
viết
annotation
chuẩn
theo
taxonomy
và
nên
chú
ý
thống
nhất
viết
hoa
và
viết
thường.
Phạm Thạch Thảo (thảo luận) 20:40, 13/5/2011 (ICT)
-
Em
note
lại
chi
tiết
và
hướng
dẫn
các
bạn
khác
cùng
làm
nhé.
Cao Xuân Hiếu (thảo luận) 00:32, 14/5/2011 (ICT)
-
Em
đổi
lại
format
tí.
Đã
được
ghi
lại
ở
đây.
Phạm Thạch Thảo (thảo luận) 14:25, 14/5/2011 (ICT)
-
Em
note
lại
chi
tiết
và
hướng
dẫn
các
bạn
khác
cùng
làm
nhé.
-
Có
cách
nào
download
tên
chuẩn
các
loài
(không
chứa
các
cấp
cao
hơn)
hay
không
ạ?
Hiện
thời
nếu
dùng
tên
gọi
chi
với
loài
lẫn
lộn
thì
có
thể
dùng
đoạn
script
sau
để
edit
tao
file
qui
chiếu
loài
(annotation)
Tập
tin:Createannotation.zip.
Mô
tả
chi
tiết
em
đã
ghi
lại
trong
note.
Phạm Thạch Thảo (thảo luận) 20:43, 15/5/2011 (ICT)
Chủ đề 8[sửa]
"Kinh nghiệm làm việc trên NCBI: tìm kiếm, định hướng, lưu trữ, phân tích kết quả..."
Trong khóa học, chúng ta cần download tất cả nucleotide sequences thuộc những taxon liên quan đến Họ Ba ba và Bộ Rùa.
Chủ đề 9[sửa]
Cách sử dụng phần mềm MEGA
Bạn có khó khăn gì khi làm việc với phần mềm MEGA thì viết dưới đây.
Lan: không biết làm bao nhiêu lần rồi mà không được, em down đúng phần mềm Mega 4, nó không hiện tương ứng các mục như trong video hướng đẫn. đúng là phải kiên trì
-
Bình
tĩnh:
Có
thể
video
này
hướng
dẫn
cho
phiên
bản
MEGA
cũ
trong
khi
phần
mềm
đó
đã
nâng
cấp
rồi.
Em
cứ
dùng
phiên
bản
mới
nhất.
Nếu
có
khó
khăn
gì
thì
chụp
lại
màn
hình
và
up
lên
đây.
Cao Xuân Hiếu (thảo luận) 13:15, 10/3/2011 (ICT)
Em không mở được MEGAS trên máy (Mac OS) không hiểu tại sao...
- Với Mac phải cài thêm Virtual PC xem Mega với MAC
-
Cao Xuân Hiếu (thảo luận) 22:58, 9/5/2011 (ICT)
-
Xem
ra
không
được
rồi,
em
không
có
Administrator
key
nên
không
cài
được
Virtual
PC!
- Giải pháp thay thế có lẽ dùng Mesquite trên Java.
-
Cao Xuân Hiếu (thảo luận) 23:15, 9/5/2011 (ICT)
Chủ đề 10[sửa]
Cách sử dụng công cụ NCBI blastn. Trong khóa học, chúng ta sử dụng blastn đối với database nucleotide collection. Các thông số khác để mặc định. Nếu gặp khó khăn xin viết ở đây.
Chủ đề 11[sửa]
"Suy đoán tại sao nhóm tác giả lại sử dụng 3 gene nad4, cytb và 16S để giải trình tự? Bạn có đề xuất gene nào khác? Tại sao?"
Có thể một lý do là 3 gen này đều là gen của ty thể:
- ADN ty thể có số lượng bản sao nhiều hơn ADN nhân nên việc thu được mẫu ADN ty thể có khả năng thành công cao hơn.
-
ADN
ty
thể
có
tần
xuất
đột
biến
cao
hơn
ADN
nhân
(do
ở
nhân
có
nhiều
bộ
máy
để
kiểm
soát
việc
sao
chép,
nhân
đôi
ADN
hơn),
kết
quả
là
mức
độ
đa
hình
của
một
vị
trí
gen
nhất
định
trên
ty
thể
sẽ
cao
hơn
so
với
ở
nhân.
Mức
độ
đa
hình
cao
có
lẽ
sẽ
tốt
hơn
cho
việc
phân
loại.
Hồ Hữu Thọ (thảo luận) 08:54, 10/4/2011 (ICT)
- Tại sao không phải gene khác trên ty thể mà lại là 3 gene này?
-
Cao Xuân Hiếu (thảo luận) 16:09, 7/5/2011 (ICT)
Chủ đề 12[sửa]
"Phân loại học phân tử được tiến hành thông qua so sánh sự khác biệt về trình tự ADN của ở các loài khác nhau. Vậy hiện nay để tiến hành phân loại học phân tử, người ta chỉ cần tiến hành phân tích một (nhóm) gen nhất định hay phải phân tích toàn bộ bộ gen để đưa ra kết luận về phân loại? " từ Thành viên:Hồ Hữu Thọ
- Diễn giải thêm 1 chút về câu hỏi rất thú vị này của Thọ để mọi người tiếp tục thảo luận sâu hơn:
- phân biệt gene tree và species tree
- chi phí để phân tích toàn bộ genome của 1 loài không nhỏ, liệu có thể dùng 1 subset data (1 nhóm gene) để làm đại diện loài được không? Nếu được thì dựa vào tiêu chí nào để chọn gene, lấy bao nhiêu dữ liệu là đủ?
- liên hệ với chủ đề số 11
-
Cao Xuân Hiếu (thảo luận) 00:19, 3/3/2011 (ICT)
- Tôi thử đưa ra ý kiến suy diễn riêng, hoàn toàn là suy diễn:
+ Rõ ràng chi phí phân tích toàn bộ bộ gene là rất lớn, hơn nữa yêu cầu thời gian tính toán chắc chắn là rất rất lớn và không khả thi. Hơn nữa bản thân mô hình chưa chắc đã có hiệu lực với toàn bộ gene (các tham số score trong so sánh hai chuỗi). Việc chọn một vài gene nào đó có lẽ bắt đầu từ việc đề xuất, dựa trên tiêu trí gene thuộc về các quá trình khác nhau, gene chịu áp lực tiến hóa (theo: en: Phylogenetic tree... Hệ gene đó phải được validate đối với các công nhận hiển nhiên về phân loài, chẳng hạn không thể để hệ gene được chọn phân con người ra là người loại A và người loại B dựa vào gene qui đinh nhóm máu. Tóm lại là gene sao cho ổn định cao đối với các các thể được thừa nhận trong một loài, khác biệt cao với các cá thể thuộc về hai loài khác nhau...
+ Gene tree và species tree khác nhau. Gene tree phản ánh quan hệ họ hàng của bộ gene, trong khi đó species tree phản ánh quan hệ phân loại kiểu hình (?).
Theo quan niệm chung, hai cây đó phải rất gần gũi nhau: Những gì khác biệt về mặt genetic phải thể hiện trong khác biệt về kiểu hình, đó cũng là một tiêu chí để quyết định bộ gene có phù hợp không (như trên.)
Theo tôi hiểu tiêu chí về phylogenetic thì gene tree phải xấp xỉ tốt species tree. Tuy nhiên xét về mặt lý thuyết thuần túy hai phân loại đó không nhất thiết và cần thiết giống nhau. Nếu bộ gene mà ta chọn ra có thể chứng minh được là phản ứng tương đối đầy đủ về mặt sinh học (nào đó) của cá thể, khi đó gene tree có thể coi là tree mô tả quan hệ họ hàng về mặt sinh học đó (không nhất thiết liên quan đến kiểu hình.)
-
Phạm Thạch Thảo (thảo luận) 20:26, 8/3/2011 (ICT)
Chủ đề 13[sửa]
"Những đặc điểm sinh học nào của loài rùa mà chúng ta cần lưu ý khi phân tích quá trình tiến hóa? khác với quá trình tiến hóa của các loài động thực vật khác."
Em đoán thôi, là rùa tiến hóa chậm.
-
Em
thử
đưa
ra
lập
luận
vì
sao
rùa
lại
tiến
hóa
chậm.
Có
những
công
bố
khoa
học
nào
ủng
hộ
hoặc
bác
bỏ
giả
thuyết
này.
Cao Xuân Hiếu (thảo luận) 16:07, 7/5/2011 (ICT)
Hi, em không biết, chỉ là ngày trước khi tham gia khóa học về kỹ năng nghiên cứu thực địa rùa cạn và rùa nước ngọt Việt Nam, em được giảng là rùa có những đặc điểm thích nghi tốt, nên từ hàng triệu năm nay chúng hầu như không có sự biến đổi gì nhiều nhưng vẫn tồn tại rất tốt ngoài tự nhiên, trước khi có sự tác động của con người.
Tuổi thọ của rùa cao có thể là nguyên nhân của tiến hóa chậm.
Chủ đề 14[sửa]
"Trật tự các trình tự gene ở trong file đầu vào có ảnh hưởng như thế nào đến các kết quả phân tích sau này?"
-
Về
lý
thuyết
em
cho
là
không
ảnh
hưởng
gì.
Tuy
nhiên
cây
nhìn
có
thể
sẽ
khác
nhau,
nhưng
hoàn
toàn
có
thể
hoán
vị
lại
vị
trí
để
thu
được
cây
như
mong
muốn.
Phạm Thạch Thảo (thảo luận) 21:08, 8/5/2011 (ICT)
Cho
em
hỏi
một
chút
về
bắt
cặp
trình
tự
và
cách
sử
dụng
phần
mềm:
1. Trong các đoạn trình tự ta đem phân tích có các trình tự là toàn bộ gene ty thể, em đoán đây là một phần nguyên nhân làm cho việc bắt cặp tốn thời gian, và kết quả bắt cặp lần 2 khác so với lần 1. Vậy ta có thể cho các trình tự toàn bộ gene ty thể này bắt cặp với các trình tự RHG trước, cắt bỏ phần thừa rồi quay trở lại bắt cặp với các đoạn trình tự khác (làm như bình thường) được không ạ? Liệu có ảnh hưởng gì nhiều tới kết quả không ạ? (vì chưa có thời gian nên em cũng chưa làm thử)
2. Khi em đổi tên file (định dạng aln, dnd,...) cho dễ theo dõi thì em không mở lại được nữa, là do đặc điểm của phần mềm(clustal, bioedit...) hay là do em cài đặt có vấn đề ạ? (Em đã phải ngồi làm lại gần như từ đầu chỉ vì đổi tên file).
3. Khi em dùng bioedit hay clustal, em phải để file của em trực tiếp trong một ổ nào đó, tức là không được nằm trong folder nào cả (=> đường dẫn ngắn) thì chương trình mới chạy được. Điều này làm cho em mất thêm thời gian để sắp xếp lại dữ liệu và rất bất tiện. Có cách nào khắc phục được không ạ?
1. Đồng ý với Trang về việc các trình tự toàn bộ gen ty thể sẽ làm thời gian bắt cặp lâu hơn khi tiến hành với ClustalW. Tuy nhiên, với mục đích loại bỏ trình tự thừa so với trình tự tiêu bản thì thay vì dùng ClustalW, ta có thể dùng phần mềm R với ứng dụng mà Thảo đã xây dựng. Với ứng dụng này thì Trang không cần quan tâm đến trình tự nào là toàn bộ gen ty thể nữa, vì tốc độ xử lý của nó vô cùng nhanh.
2. Khi mở file, Trang để ý có chỗ lựa chọn loại file sẽ mở.
3. Mình không thấy hiện tượng như Trang nêu, nhưng có thể tên file hoặc folder quá dài.
Cảm
ơn
anh
Thọ,
nhưng
em
thường
để
tên
folder
ngắn
thôi
mà
(ví
dụ
nd4,
hay
nd4_all
chẳng
hạn).
Em
làm
trên
máy
tính
của
trường
cũng
gặp
hiện
tượng
như
thế.
Có
thể
nào
do
phiên
bản
của
phần
mềm
em
dùng
ko
ạ?
-
Trang
miêu
tả
kỹ
hơn
là
đang
dùng
máy
tính
loại
gì?
hệ
điều
hành
gì?
phần
mềm
đang
dùng
phiên
bản
nào
bao
nhiêu?
lỗi
cụ
thể
hiển
thị
là
gì?
chương
trình
có
thông
báo
lỗi
là
gì?
Cao Xuân Hiếu (thảo luận) 15:51, 15/5/2011 (ICT)
Thật
không
thể
giải
thích
nổi
tại
sao,
nhưng
em
vừa
mở
lại
để
chụp
màn
hình
gửi
cho
các
anh
xem
giúp
thì
không
xuất
hiện
lỗi
ấy
nữa,
hic,
em
không
hiểu.
Nhưng
những
lần
trước
thì
nó
xuất
hiện
thông
báo
"Cannot
open
file",
và
khi
em
nhấc
file
đó
ra
ổ
E:\
thì
chạy
bình
thường.
Em không hiểu anh Hiếu hỏi loại máy tính là sao, hệ điều hành em dùng windows7, phần mềm em dùng là clustalX2.1. Em không nhớ lỗi thông báo của bioedit.
Chủ đề 15[sửa]
"Cây phân loại được vẽ bởi những trình tự tương đồng nhất với trình tự quan tâm (kết quả của NCBI blast) có ý nghĩa khác gì với cây phân loại được vẽ bởi trình tự thu được trong 1 đơn vị phân loại nhất định (ví dụ trong 1 Họ, 1 Bộ)?"
Hay nói 1 cách khác, liệu có thể định danh 1 loài (mẫu vật) bằng kết quả blast ncbi mà k cần phải vẽ cây phân loại như tiến trình ta đang làm?
Chủ đề 16[sửa]
Các giải thuật thay thế nucleotide / mô hình tiến hóa DNA nào là tốt nhất? xem en:Models of DNA evolution và en:Models of nucleotide substitution. Liên hệ đến việc phát biểu như thế nào về ngưỡng giới hạn trong loài hay loài mới cho mang đúng tính khoa học nhất? % thay đổi gene, khoảng cách di truyền? hay 1 đơn vị nào?
Khi em tìm hiểu về các mô hình tiến hóa, tài liệu sau đã giúp ích cho em nhiều (vì em dốt toán), cũng chỉ là hệ thống lại kiến thức thôi ạ. [5]
Chương 5 xem qua mình thấy khá nặng về đại số.
Chủ đề 17[sửa]
- Ý nghĩa của việc bắt cặp trình tự và xóa bỏ các trình tự không đồng bộ?
- Lê Thị Trang, 22:38, 6/5/2011 (UTC)
Theo tôi các kết luận chúng ta sẽ đưa ra dựa trên việc so sánh sự giống nhau của các loài quan tâm. Nếu bản thân các trình tự này không đồng bộ thì sẽ tạo ra sự khác nhau giữa các trình tự mà sự khác nhau này chẳng liên quan gì đến việc phân loại của chúng ta. Hay nói cách khác, sự không đồng bộ của các trình tự là một yếu tố nhiễu trong việc so sánh các trình tự với nhau liên quan đến phân loại.
Ngoài ra, các trình tự không đồng bộ làm mất thời gian xử lý của máy tính và có thể là phần mềm phân tích sẽ không chấp nhận.
-
Ngoài
ra
cũng
để
tránh
các
trình
tự
sai,
phân
loại
sai
v.v...
Phạm Thạch Thảo (thảo luận) 20:56, 7/5/2011 (ICT)
Chủ đề 18[sửa]
- Phân bố của các sai khác trình tự di truyền (khoảng cách di truyền) giữa các cá thể trong 1 đơn vị phân loại có phải là 1 phân bố chuẩn hay không? Tại sao? Thiết kế thí nghiệm như thế nào để chứng minh hay bác bỏ.
-
Cao Xuân Hiếu (thảo luận) 12:23, 26/5/2011 (ICT)
Về
câu
hỏi
này,
em
xin
mạnh
dạn
đưa
ra
ý
kiến
như
sau:
Dữ
liệu
(số
trình
tự
DNA
chúng
ta
hiện
có)
của
hầu
hết
các
loài
là
không
đủ
để
kiểm
định
giả
thiết
xem
kcdt
có
tuân
theo
phân
bố
chuẩn
hay
không
(hoặc
có
thể
kiểm
tra
được
nhưng
sẽ
đưa
ra
kết
luận
không
đáng
tin
cậy,
điều
này
thành
ra
vô
nghĩa).
Nhưng
em
đoán
là
nó
cũng
chuẩn
thôi.
Tuy nhiên, xét về góc độ sinh học thì em hiểu, khoảng cách di truyền trong loài phải nằm trong một giới hạn nào đó. Giá trị lớn nhất ta tính được có xu hướng tăng dần nếu số lượng trình tự tăng dần và tiệm cận với một giá trị giới hạn. Giá trị giới hạn ở đây chính là giá trị lớn nhất khi ta so sánh được trình tự của tất cả các cá thể trong loài với nhau (điều này là không thể làm được).
Một vấn đề khác anh Thảo đã đặt ra là outlier (ví dụ như mình gặp phải đoạn nào mang đột biến nhiều quá chẳng hạn) thì sẽ cho ra một giá trị kcdt rất lớn, và giá trị đó không có ý nghĩa về mặt thống kê. Em nghĩ loại bỏ các số liệu này bằng các thao tác xử lý số liệu trước khi phân tích cũng không quá khó khăn.
Anh Thảo có thể làm thử với loài Geochelone nigra, loài này có tới 164 trình tự nên em nghĩ nó sẽ cho ra kết quả có độ tin cậy cao đấy ạ.
Nếu có nhiều trình tự hơn thì em thấy dùng giá trị trung bình cũng được, nhưng vì hầu hết các loài còn lại chỉ có dưới 5 trình tự nên em thấy dùng giá trị trung bình là hơi mạo hiểm. Hơn nữa bài toán của chúng ta cũng hơi nhạy cảm, vì phải so sánh kcdt giữa RHG với các loài khác nữa nên việc lấy giá trị nào ảnh sẽ ảnh hưởng nhiều tới tới kết luận. Theo em kcdt trong loài thì nên dùng giá trị lớn nhất, còn kcdt giữa hai nhóm sv cần so sánh thì nên dùng giá trị nhỏ nhất, so sánh hai giá trị này với nhau. Làm được như thế thì em nghĩ kết luận của mình sẽ chặt chẽ hơn. (Trong trường hợp ta kết luận hai nhóm này là hai loài khác nhau, trường hợp kia thì dùng hai giá trị lớn nhất ạ)
(Em cũng chỉ đặt ra vấn đề vậy thôi, nếu nó mất quá nhiều thời gian để giải quyết và kết quả cũng không mấy khá hơn thì cũng không cần thiết phải giải quyết tất cả đâu ạ).
-
- Trang và mọi người có thể khai triển thêm ý :"xét về góc độ sinh học thì em hiểu, khoảng cách di truyền trong loài phải nằm trong một giới hạn nào đó" được k? Cụ thể kiến thức sinh học nào ủng hộ hay phản bác điều này.
-
Cao Xuân Hiếu (thảo luận) 22:50, 26/5/2011 (ICT)
- Thực ra một đại lượng nào đó có phân bố chuẩn là vì nó chịu ảnh hưởng của rất nhiều yếu tố khác nhau cộng lại. Một trong những yếu tố rất quan trọng là sai số đo đạc (sequencing) + sai số mô hình + sai số do chọn gene + ... Yếu tố sinh học sẽ không quyết định được khoảng cách phải bị cutoff ở đâu đó. Ví dụ khi đo chiều dài của thước kẻ, về nguyên tắc nó là một số chính xác nhưng sai số dẫn đến nó phân bố chuẩn. Đại để khoảng cách thực tế là chân lý nằm ở đâu đó "bất khả tri", cái mà ta đo, hoặc mô hình hoá là cái "khả tri" nhưng lại rất nhiều sai số. Vì lý do đó nếu khoảng cách chân lý giữa hai loài có giới hạn nhất định nào đó, thì khoảng cách mô hình hóa về cơ bản vẫn cứ biến thiên không tiên liệu được và sẵn sàng có long tail ngoài tầm kiểm soát (điều này ít nhiều liên hệ với sự khác biệt gene tree và species tree.) Hơn nữa, bản thân khoảng cách di truyền cũng không có "chân lý bất khả tri" (theo mình hiểu) như chiều dài thước kẻ.
- Chính xác là số liệu không thể đủ để ta đi sâu vào phân tích (thực ra mình đã xem trường hợp 134 trình tự, có vẻ như loài này nhiều là vì bị bắt... hàng loạt từ một hai đầm gì đó, nên mặc dù nhiều, khoảng cách về cơ bản chỉ mang rất ít giá trị, mà hầu hết rơi vào d = 0.) Cách làm đơn giản hơn cả là có lẽ dùng clustering kiểu gì đó để quan sát vị trí của Rùa Hồ Gươm (tức là xây dựng cây phân loài - đúng ra là gene tree thôi - trên subset các trình tự chọn trước.) Max distance hay ở chỗ là hàm đẹp nhất có thể rút ra từ dữ liệu thuộc loại khoảng cách như thế, nhưng mình e là không dùng để làm tham số đặc trưng cho loài được (không vượt qua được giới hạn long tail ở trên) và chỉ dùng để quan sát chứ không thể đặt một khẳng định.
@
anh
Hiếu:
cũng
chẳng
phải
là
góc
độ
sinh
học
gì
đâu
ạ,
ý
em
là
kcdt
có
giới
hạn
vì
số
lượng
cá
thể
trong
loài
tại
một
thời
điểm
xác
định
là
một
con
số
cụ
thể.
Ví
dụ:
chiều
cao
của
người
trưởng
thành
là
một
biến
ngẫu
nhiên
tuân
theo
luật
chuẩn
nhưng
tại
một
thời
điểm
thì
vẫn
có
một
người
cao
nhất.
@ anh Thảo: Em cũng đã hiểu ý anh phần nào, nếu kcdt chỉ để quan sát chứ không đặt khẳng định gì cả thì em cũng thở phào. Hy vọng ở những bài học sau em sẽ hiểu rõ hơn về chiến lược chúng ta đang dùng. Nhưng em nghĩ khi nghiên cứu thì việc đặt phán đoán ban đầu rất quan trọng, nếu phán đoán tốt thì mình sẽ thiết kế được quy trình thông minh. Anh Thảo có thể gửi số liệu về khoảng cách di truyền (đầy đủ) của các loài cho em được không ạ? Hôm nào rảnh em sẽ thử làm xem sao, theo em đang tưởng tượng trong đầu thì loại bỏ số liệu thô và lập ra 3 bảng lớn nhất, nhỏ nhất và trung bình cũng không tốn thời gian lắm. Dù việc làm này vô nghĩa nhưng nếu em có thể làm được và nó giải đáp được thắc mắc của em thì em vẫn muốn làm, hi…
-
- Anh bổ sung 1 chút: việc thu mẫu trong sinh học tuân thủ những nguyên tắc nhất định để khống chế những sai số như Thảo nói trên. Mọi người có thể đọc thêm tại Sinh học Đại cương/ Chương 1, hoặc bài dài, ngắn
- Trường hợp cụ thể (134 trình tự) có thể xem thông tin ở Genbank format để tìm ra công trình đi kèm. Anh không nghĩ họ thiết kế thí nghiệm như Thảo nói. Những quan sát của mình về kcdt có thể phản ánh 1 sự thật.
- @Trang: nếu xét thu mẫu tại 1 thời điểm, thông tin di truyền của tất cả các cá thể trong loài đều phản ánh lịch sử tiến hóa của loài đó (và tổ tiên cá thể đó).
-
Cao Xuân Hiếu (thảo luận) 08:15, 27/5/2011 (ICT)
- @Trang: Tất cả những gì mình thử tính đều đã có upload đâu đó. Ở đây mình upload lại cả source, guide, và output (nhưng không kịp ghi comment cho source, đôi khi có những thay đổi nhỏ.) [6]
-
Phạm Thạch Thảo (thảo luận) 13:59, 28/5/2011 (ICT)
- @ anh Hiếu: Em đồng ý là "nếu xét thu mẫu tại 1 thời điểm, thông tin di truyền của tất cả các cá thể trong loài đều phản ánh lịch sử tiến hóa của loài đó ", nhưng em vẫn chưa hiểu thông điệp anh muốn chuyển tới ở đây là gì, anh giải thích rõ hơn cho em được không ạ? hic...
-
- Anh muốn nói, cái chúng ta đang làm ở đây là so sánh từng đôi một trình tự giữa các cá thể ở thời điểm hiện tại (những cái lá trên cây tiến hóa). Điều mà chúng ta giả định là khoảng cách từ những cái lá này đến cái cành cây (tổ tiên chung của loài) là bằng nhau. Như thế, chỉ có phép đo khoảng cách trình tự cá thể hiện nay với trình tự giả định của tổ tiên chung là phân bố chuẩn (giống đo thước kẻ, đo chiều cao) hay giá trị trung bình có ý nghĩa. Trong khi đó, anh cho rằng khảo sát những kcdt của cá thể loài hiện tại có tác dụng nhìn xem tính đồng nhất của loài như thế nào. Vấn đề là làm sao phát hiện được vịt con giữa đàn gà.
-
- Anh lại lái câu chuyện sang hướng khác, giả sử chúng ta có 1 trình tự nhất định, đem blast lên NCBI, lấy best hit(s). Chỉ khi nào độ tương đồng giữa trình tự query và trình tự hit nằm trong 1 biên độ an toàn (khoảng chính xác của phép đo) thì chúng ta mới có thể kết luận mối quan hệ tiến hóa giữa 2 trình tự. Làm thế nào tính được khoảng biên độ này?
-
-
Cao Xuân Hiếu (thảo luận) 23:55, 27/5/2011 (ICT)
-
-
- Càng nghĩ em càng không tin tưởng vào distance lắm. Giả sử ta có trong loài S (gồm một số trình tự S1, S2, S3...), trong đó có một SNP, thì raw max distance nói chung là 1. Giả sử ta test trình tự A với loài S, giả thiết trình tự này không thuộc S và chỉ khác một Nucleotide (nhưng không phải chỗ SNP trong loài S.) Khi đó distance A đến các trình tự nói chung cũng là 1. Khi đó NJ sẽ k phát hiện được gì. Vặt khác MP sẽ phát hiện được sự khác biệt đó.
- @anh Thảo: theo em hiểu thì khi kiểm tra xem trình tự A có phải loài S không thì công việc ta phải làm là so sánh A với S1, S2, S3… chứ nhỉ? (hay em đang hiểu sai cũng không biết nữa?) Và nều thế thì kcdt chắc chắn sẽ lớn hơn 1 rồi (chỉ có nhiều nhất một giá trị kcdt = 1).
- À không: ví dụ của mình sai :-P
@anh
Hiếu:
Chúng
ta
đang
đo
khoảng
cách
giữa
các
lá
và
khoảng
cách
đôi
một
giữa
các
lá
này
cũng
có
thể
“chuẩn”
mà
anh.
Nếu
có
bảng
số
liệu
đầy
đủ
thì
em
sẽ
kiểm
tra
luôn,
nhưng
chắc
là
phải
đợi
tới
khi
có
kq
với
gene
nd4,
hic...Em
cũng
đang
cố
nghĩ
xem
ý
nghĩa
của
việc
nó
chuẩn
hay
không
là
gì :D
(Sau 3 ngày em đọc lại mới hiểu hiểu một tí về những gì anh trình bày ở đoạn đầu tiên :( nhưng cũng chưa hết và còn có thể hiểu sai nữa, có gì em sẽ chỉnh lại kiến thức sau ạ.Chiều nay đi thi về em sẽ đọc tiếp xem sao.)