Thảo luận:Tiến trình và phương pháp phân tích DNA của Rùa

Từ VLOS
Bước tới: chuyển hướng, tìm kiếm

Chủ đề 1[sửa]

"Sự sai khác về trình tự DNA đến mức độ nào thì được coi là vẫn thuộc 1 loài hay đã hình thành loài mới".

Cao Xuân Hiếu (thảo luận) 05:11, 28/2/2011 (ICT)
  • Em nêu ý kiến: Trong trường hợp loài không phải là loài hiếm có thể sẽ có số liệu về mức độ sai khác cho phép của trình tự DNA trong ngân hàng dữ liệu. Trường hợp rùa Hồ Gươm và giải Thượng Hải là loài hiếm, số liệu này chắc không có được. Vậy ta có thể so sánh khoảng cách trình từ rùa Hồ Gươm và giải Thượng Hải với khoảng cách giữa các loài trong chi lân cận đã được thừa nhận (có thể cần giả thiết là sử dụng các gene tương tự nhau trong phân tích). Nếu khoảng cách giữa rùa hồ Gươm và giải Thượng Hải không nhỏ nhất thì ta "có cơ sở" để kết luận rùa Hồ Gươm là loài mới. Nếu khoảng cách đó chẳng may nhỏ nhất, thì người yêu thích giả thiết rùa Hồ Gươm là loài mới vẫn có cơ hội để xem xét: "khoảng cách rùa Hồ Gươm và giải Thượng Hải nhỏ một cách có ý nghĩa hay không?" Đây là bài toán kiểm định thống kê các giá trị cực biên. Giả sử ta vẽ tất cả các khoảng cách giữa các loài trong chi, phân họ và họ lân cận trên một đường thẳng, nếu điểm biểu diễn rùa Hồ Gươm - giải Thượng Hải nhỏ hơn khác biệt (có tiêu chuẩn cho mức ý nghĩa của "khác biệt" khi số điểm đủ lớn) thì giả thiết rùa Hồ Gươm là loài mới sẽ bị loại bỏ. Ngược lại ta "có cơ sở" để cho rằng rùa Hồ Gươm là loài mới.

Thành viên: Phạm Thạch Thảo


Vì tôi cảm thấy khái niệm thế nào là loài đang còn tranh cãi (mới đọc qua ở species), nên tôi muốn biết ý nghĩa của việc phân định một sinh vật nào đó thuộc loài nào, hay thuộc một loài mới thì sẽ có ý nghĩa như thế nào?

Hồ Hữu Thọ (thảo luận) 01:46, 12/3/2011 (ICT)
Good point! đọc thêm ở Why Should We Care about Species? Thọ và mọi người có thể tóm tắt bài này được k?
Cao Xuân Hiếu (thảo luận) 01:47, 12/3/2011 (ICT)

Mời cùng đọc và tóm tắt lại tại bài Tại sao chúng ta quan tâm đến loài?


Em có đọc được một bài báo, trong đó có một vài ý kiến được cho là của PGS.TS Lê Trần Bình. Trong bài có đoạn: "PGS.TS Lê Trần Bình cho rằng, nếu các gen chỉ thị khác nhiều (khoảng 10%) so với những loài đã được mô tả, có thể kết luận là loài mới. Tuy nhiên, cần thận trọng và phải tuân thủ thông lệ quốc tế khi chọn gen để phân tích". Có thể xem bài báo ở đây.

Theo ý kiến của cá nhân em, sự sai khác DNA ở mức độ nào thì được coi là vẫn thuộc một loài hay hình thành loài mới còn phụ thuộc vào đoạn (hay những đoạn) DNA ta sử dụng để so sánh, vì mỗi gene có tốc độ tiến hóa không giống nhau.

Lê Thị Trang (thảo luận) 18:00, 20/4/2011 (ICT)
Ngoài mỗi đoạn trình tự có tốc độ tiến hóa (tần số đột biến xảy ra) khác nhau, ứng với mỗi một đơn vị phân loại taxon thì con số này lại khác nhau. Do đó, theo anh, phát biểu trên phải trích ra được 1 công trình nghiên cứu có uy tín đối với taxon và đoạn trình tự đang xét.
Cao Xuân Hiếu (thảo luận) 15:57, 20/4/2011 (ICT)

Em thấy con số 10% cũng thật quá sức tưởng tượng.

Lê Thị Trang (thảo luận) 18:50, 20/4/2011 (ICT)
Nếu có thể xác định loài mới dựa trên số % thay đổi của gene thì ng nông dân sẽ đánh giá các nhà khoa học thật là nhàn nhã. Liệu những thuật toán để tính khoảng cách di truyền, mối quan hệ tiến hóa .v.v có cần được tiếp tục nghiên cứu nữa k? Nên lưu ý hiện nay lĩnh vực phân loại học phân tử vẫn chưa hình thành được cái gọi là quy trình chuẩn cho việc định danh loài. Điều đó có nghĩa là tất cả những tính toán như NJ, MP, ML, Bayers vẫn ko thỏa mãn được tất cả các trường hợp.
Cao Xuân Hiếu (thảo luận) 16:41, 20/4/2011 (ICT)
Đôi khi em thấy không có một qui trình chuẩn lại hay. Người làm việc phải nghĩ cách để tối ưu hóa quy trình và điều đó kích thích sáng tạo ít hay nhiều. Lúc khác lại ước có qui ước chuẩn rồi để mình đỡ phải mò mẫm.
Phạm Thạch Thảo (thảo luận) 20:57, 20/4/2011 (ICT)

Chủ đề 2[sửa]

"Liệu dữ liệu về DNA (phân loại học phân tử) có thể thay thế hoàn toàn phân loại truyền thống không? Tại sao"

Cao Xuân Hiếu (thảo luận) 22:08, 28/2/2011 (ICT)
  • Cái này em nghĩ nên để sau khi tiến hành phân tích ta thảo luận thì hơn ạ. Khi đó mọi người có khái niệm vệ phân loại theo DNA và phân loại truyền thống là gì (thông qua thực hành.) Hiện giờ như em thì chưa biết gì để phát biểu cả.
Phạm Thạch Thảo (thảo luận) 00:54, 23/3/2011 (ICT)
Anh muốn nghe ý kiến ở tại lúc này (có thể đúng, có thể sai), sau khi em đã đọc lý thuyết tương đối rồi.
Cao Xuân Hiếu (thảo luận) 11:58, 23/3/2011 (ICT)


Những lập luận cho rằng có thể[sửa]

Em nghĩ hoàn toàn có thể thay thế được nếu đến một lúc nào đó việc phân loại bằng phân loại học phân tử trở nên hết sức dễ dàng (học sinh phổ thông cũng làm được chẳng hạn), không tốn kém và chính xác tuyệt đối.

Lê Thị Trang (thảo luận) 11:34, 17/4/2011 (ICT)
Trang có thể đưa ra những lập luận chi tiết hơn, hay dẫn chứng rõ ràng hơn để bác bỏ những ý kiến cho rằng không thể phía dưới?
Cao Xuân Hiếu (thảo luận) 16:26, 17/4/2011 (ICT)


Do đọc đi đọc lại em cũng không thật rõ ý của các anh chị và cũng do kiến thức còn ít nên em không phản phản biện một cách cụ thể được, Tuy nhiên, em xin mạnh dạn đưa ra một số quan điểm như sau:

1. Em không lấy được ví dụ cho nhận định của anh Thọ: “có thể trong một số trường hợp thông qua so sánh kiểu hình, chúng ta có thể chỉ ra được các sinh vật có cùng tổ tiên hay không, trong khi đó nếu so sánh ADN chúng ta sẽ không thu được kết luận tương tự.” Anh Thọ có thể lấy ví dụ minh họa giúp em được không ạ? Xưa nay em thường thấy người ta dùng phân loại học truyền thống để phân loại sinh vật, đến khi phân loại học truyền thống “bó tay”, họ mới quay sang dùng phân loại học phân tử, em không biết có trường hợp ngược lại không?

2. Tiến hóa là sự biến đổi từ từ, cả về kiểu hình lẫn kiểu gen. Em tin rằng chẳng có loài nào hay nhóm sinh vật nào biến đổi kiểu hình một cách có ý nghĩa với tiến hóa mà kiểu gene vẫn không nhúc nhích gì cả.

3. Hiện nay người ta còn chưa biết rõ về di truyền học ngoại sinh nên việc kết luận nó có thực sự liên quan đến một trình tự Nu… nào đó hay nó có phải là một loại mã di truyền hay không thật khó để khẳng định ở đây. Hơn nữa, em nghĩ trong tương lai phân loại học phân tử sẽ không chỉ dừng lại ở việc so sánh các trình tự DNA hay Protein.

Hiện nay, dữ liệu phân tử chúng ta có còn quá ít và không phải ai cũng tiếp cận được với các dữ liệu này, nên việc phân loại bằng PLHPT còn phức tạp, tốn kém và thậm chí kém chính xác (vì như anh chị đã nêu ở trên, việc chọn đoạn trình tự để so sánh vẫn còn là một khó khăn). Đến khi nào chúng ta hiểu thật rõ cơ chế phân tử của sinh vật thì em tin phân loại học phân tử sẽ trở nên chính xác, không tốn kém và dễ thực hiện… Em hoàn toàn có thể dùng máy tính để bấm xem 1+1 bằng bao nhiêu, chỉ có điều em có thích làm thao tác đó hay không thôi.

Kết luận: em đồng ý là PLHPT không thể thay thế hoàn toàn PLHTT trong thời điểm hiện tại, nhưng trong tương lai thì điều này có thể xảy ra :d

Lê Thị Trang (thảo luận) 20:38, 18/4/2011 (ICT)
Anh hài lòng với câu trả lời của Trang. Đối với một số trường hợp như phân tích gene rRNA trên sinh vật nhân sơ, chúng ta đã có nguồn dữ liệu tương đối phong phú, đến mức đã thiết lập cơ sở dữ liệu cho những gene này. Từ đó, mỗi khi định danh một loài vi sinh vật, chỉ cần đọc rRNA rồi đưa vào (giống kiểu blast) lên cơ sở dữ liệu này. Kết quả sẽ thu được cây phân loại (giống cây taxonomy của blast NCBI) nhưng có mức độ phức tạp hơn đủ để kết luận về định danh loài đó. Tuy nhiên, chúng ta vẫn phải thừa nhận là còn có 1 tỷ phần lớn các loài vi sinh vật mà chúng ta chưa có cơ sở dữ liệu bởi vì chúng ko thể nuôi cấy hoặc bởi vì chúng phân bố ở những vùng sinh thái khó tìm kiếm (miệng núi lửa, mỏ dầu, suối nước nóng .v.v).
Tuy nhiên, vẫn còn rất nhiều điều cần tranh luận, mời mọi người tiếp tục đặt câu hỏi và đưa ra các lập luận, dẫn chứng của mình.
Cao Xuân Hiếu (thảo luận) 19:42, 18/4/2011 (ICT)

Những lập luận cho rằng không thể[sửa]

Phân loại truyền thống dựa vào so sánh kiểu hình, còn phân loại học phân tử dựa vào so sánh DNA (kiểu gen). Mà kiểu hình và kiểu gen không phải bao giờ cũng thống nhất với nhau, chẳng hạn di truyền ngoại gen (epigenetics) không liên quan gì đến DNA. Như vậy, có thể trong một số trường hợp thông qua so sánh kiểu hình, chúng ta có thể chỉ ra được các sinh vật có cùng tổ tiên hay không, trong khi đó nếu so sánh ADN chúng ta sẽ không thu được kết luận tương tự.

Hồ Hữu Thọ (thảo luận) 16:48, 23/3/2011 (ICT)
Đúng là kiểu hình của sinh vật là kết quả của sự tương tác của vật liệu di truyền với "môi trường". Trong đó, vật liệu di truyền quy định kiểu hình thông qua trình tự nucleotide (vd. mã di truyền) và "cấu hình" của các nucleotide (epigenetics như methylation, acetylation v.v.). Tuy nhiên, kiểu hình như vậy (giả sử "ko liên quan đến trình tự nucleotide") thì cũng ko có đặc tính di truyền và biến dị của vật liệu di truyền, do đó, nếu dựa vào các phân bố của kiểu hình như vậy thì làm cách nào có thể xác định được mối quan hệ tiến hóa giữa các sinh vật?
Cao Xuân Hiếu (thảo luận) 04:03, 24/3/2011 (ICT)
Cách chọn trình tự Nucleotide và so sánh kiểu hình ở khía cạnh nào đó có cùng khó khăn như nhau: chọn một kiểu hình nào đó đặc trưng cho loài để phân biệt cũng khó như chọn một đoạn DNA nào đó để phân biệt loài. Ví dụ kiểu hình có màu da biến đổi da dạng trong quần thể thì DNA cũng có copy number variance và single nucleotide polymorphism. Nếu thuần túy dựa trên trình tự DNA, rất dễ sinh ra trường hợp phân một loài có khả năng sinh sản cùng nhau, hoặc giống nhau về kiểu hình, thành các loài con. Vì vậy cách nào đó ta thỏa hiệp giữa hai phương pháp: chọn gene ít nhiều dựa trên kiểu hình và kiểu hình ít nhiều dựa trên kiểu gene quy định nó là tốt nhất?
Phạm Thạch Thảo (thảo luận) 13:58, 24/3/2011 (ICT)
Đi vào trường hợp nếu chỉ sử dụng dữ liệu DNA (có tính variation cao hơn nhiều so với kiểu hình) và gặp tình huống "phân một loài có khả năng sinh sản cùng nhau, hoặc giống nhau về kiểu hình, thành các loài con" thì chúng ta có thể đặt những ngưỡng (threshold) nhất định để xác định khoảng cách nào là cùng loài, dưới loài, cùng các taxon trên loài. Thảo nghĩ có thể khả thi không?
Cao Xuân Hiếu (thảo luận) 14:07, 24/3/2011 (ICT)
Em nghĩ về lý thuyết có thể làm vậy: threshold có thể chọn một cách tối ưu về mặt lý thuyết sao cho phân loại là tốt nhất (ví dụ: xác định số cluster của wiki) . Về thực hành theo hiểu biết của em thực ra không làm được, tức là không thể tìm được threshold tối ưu như mong muốn vì lý do các nhóm trong thực tế tính toán rất phân tán (đây thực sự là vấn đề xác định số các cluster trong clustering mà em đang gặp rắc rối trong một bối cảnh khác.) Vậy ý em nói ở trên có thể phát biểu theo cách anh Hiếu là: "ta phải chọn threshold sao cho không vi phạm các phân loài truyền thống đã biết."
Phạm Thạch Thảo (thảo luận) 22:32, 24/3/2011 (ICT)
"ta phải chọn threshold sao cho không vi phạm các phân loài truyền thống đã biết." đấy đúng là cách mà hiện nay các nhà phân loại học phân tử đang dùng. Xây dựng mô hình sao cho nó fit nhất với các phân loại truyền thống, những khác biệt nhỏ sẽ là phát kiến mới. Thảo làm về k-mer ah? nhiều người cũng đang dùng nó trong bài toán assembly dữ liệu từ NGS hoặc làm comparative genomics analysis (phân tích dữ liệu genome của các loài khác nhau, một bài toán tổng quát hơn so với bài toán phân loại học phân tử mà chúng ta làm ở đây).

Như vậy phân loại học phân tử được xây dựng dựa trên phân loại truyền thống, không có phân loại truyền thống sẽ không có phân loại học phân tử. Mình không rõ là khi có những khác biệt nhỏ giữa phân loại học phân tử với phân loại truyền thống người ta sẽ phải giải quyết thế nào. Nếu phân loại học phân tử được xây dựng dựa trên phân loại truyền thống thì phân loại truyền thống sẽ là tiêu chuẩn vàng phải không?

Hồ Hữu Thọ (thảo luận) 22:18, 25/3/2011 (ICT)
Tôi cho là: Gọi tiêu chuẩn vàng không đúng lắm, bởi vì trong nhiều trường hợp phân loại cổ điển không phân loại được các trường hợp như rùa Hồ Gươm chẳng hạn. Một cách đại khái, các phân loại ở xa, các họ xa nhau của phân loại cổ điển có độ tin cậy cao nên phân loại DNA phải validate trên số liệu này, mặt khác các loài lân cận độ tin cậy cổ điển kém chính xác hơn và hiệu chỉnh từ DNA là quan trọng. Về mặt lý thuyết, mình nghĩ có thể coi trình tự DNA như một yếu tố bổ sung vào dữ liệu phân loại cổ điển, ngang với, chẳng hạn màu da của sinh vật. Điều khác biệt là DNA có tính hiệu quả cao trong phân loại hơn là màu da, nhưng vẫn không quyết định tất cả. (Chú ý nếu ta phân màu da thành trắng-vàng-đen, thì còn có các mức trung gian hơi vàng, hơi đen, thậm chí đo được cường độ, và vì vậy ta gặp tình huống giống hệt phân loại DNA khi phải put các threshold!)
Phạm Thạch Thảo (thảo luận) 01:06, 30/3/2011 (ICT)

Chủ đề 3[sửa]

"Ưu và nhược điểm của cây phát sinh chủng loài được tạo ra từ thuật giải NJ, ML hoặc MP"

Cao Xuân Hiếu (thảo luận) 16:26, 28/2/2011 (ICT)
tham khảo Giới thiệu về Phylogeny, các bước cơ bản tiến hành, Giới thiệu về phylogenomics của anh Trần Hoàng Dũng


Em xin trả lời: (Nhiệm vụ của nhóm 2 là cây PSCL tạo ra từ giải thuật ML). Cây phát sinh chủng loại được tạo ra từ giải thuật ML (tức là cây có xác suất cao nhất) cho đến nay được coi là cây phát sinh có độ tin cậy lớn nhất, nên em chưa nghĩ ra nhược điểm của nó là gì. Nhưng giải thuật ML (Maximum likelihood) thì có một số ưu, nhược điểm sau:

Ưu điểm:

- Độ tin cậy cao

- Xét được tất cả các trường hợp có thể, sử dụng triệt để thông tin

- Có thể dùng để kiểm tra lại kết quả của các giải thuật khác

- Có thể phân biệt tần số đột biến đồng hoán và dị hoán (phụ thuộc vào mô hình giả thuyết chấp nhận khi sử dụng phương pháp, ví dụ: mô hình Kimura...)

Nhược điểm:

- Tốn thời gian

- Số lượng phép tính quá lớn

- Không khả thi khi lượng dữ liệu nhiều

...

Lê Thị Trang (thảo luận) 20:10, 23/4/2011 (ICT)

Có thể nhược điểm của Maximulikehood (một cách khái quát trong thống kê) là ở chỗ chưa tận dụng được thông tin ban đầu trước khi phân tích (prior probability); khó ước lượng độ tin cậy. Hai đặc điểm đó thường khắc phục bằng Bayesian probability và Bootstrap.

Phạm Thạch Thảo (thảo luận) 20:33, 23/4/2011 (ICT)
Về vấn đề này mình thắc mắc: Tại sao chúng ta không sử dụng trực tiếp scoring trong alignment của hai sequence (với substitution matrix chẳng hạn BLOSUM) làm khoảng cách cho cây phân loài. Hoặc ngược lại nếu chúng ta dùng một trong số những giải thuật xây dựng cây phân loài này, về nguyên tắc substitution matrix cũng phải được xây dựng sao cho tương đồng với nó - do đó kết quả alignment sẽ phụ thuộc cả vào cách chọn giải thuật xây dựng cây nữa?
Phạm Thạch Thảo (thảo luận) 20:36, 11/5/2011 (ICT)
Thảo diễn giải ý của mình rõ ràng hơn được k? Ở đây có 3 loại kết quả: 1) alignment; 2) bảng distance matrix và 3) cây phân loài. Chúng ta có 3 nhóm công cụ A) thuật toán bắt cặp (ảnh hưởng đến (1)); B) thuật toán di truyền/tiến hóa/thay thế (ảnh hưởng đến (2),(3)); C) thuật toán dựng cây phân loài (ảnh hưởng đến (3)).
Cao Xuân Hiếu (thảo luận) 20:45, 11/5/2011 (ICT)
Em thấy diễn đạt cũng khó, có lẽ như sau: Trong alignment ta đã cố gằng xác định mức độ tương tự giữa hai trình tự sao cho score là lớn nhất, vậy score này có thể đóng trực tiếp vai trò là distance giữa chúng (thực ra là similarity, ngược lại về dấu với distance)? Score đó sử dụng ma trận substitution BLOSUM (tương tự protein sequence), mà xây dựng ma trận này phụ thuộc vào giải thuật xây dựng cây phân loài (theo em được biết người ta dùng Most Parsimony), tức là ngầm công nhận trong nó một giải thuật cây phân loài rồi. Nói cách khác, khi align ta dùng ma trận BLOSUM hoặc một hệ thống tính score nào khác tức là ngầm sử dụng một giải thuật cho cây phân loài và thậm chí mô hình tiến hóa cho cây phân loài đó?
Phạm Thạch Thảo (thảo luận) 21:47, 11/5/2011 (ICT)
Suy luận rất thú vị. Chúng ta có thể kiếm chứng suy luận này với những dữ liệu đang có.
Cao Xuân Hiếu (thảo luận) 23:12, 11/5/2011 (ICT)

Chủ đề 4[sửa]

"Hãy chia sẻ kinh nghiệm của bạn để tìm kiếm thông tin, bài báo và sách hiệu quả trên internet"

Cao Xuân Hiếu (thảo luận) 15:01, 1/3/2011 (ICT)

Ai đó, làm ơn hãy chia sẻ ở chủ đề này đi ạ!

Lê Thị Trang (thảo luận) 13:06, 24/4/2011 (ICT)

Chủ đề 5[sửa]

"Quản lý tài liệu tham khảo và trích dẫn nó như thế nào trong 1 văn bản khoa học cho hợp cách và logic?"

Cao Xuân Hiếu (thảo luận) 15:01, 1/3/2011 (ICT)

Em biết một cách là dùng Endnote.

Lê Thị Trang (thảo luận) 05:44, 7/5/2011 (ICT)

Chủ đề 6[sửa]

"Những gì thú vị bạn mới học được khi sử dụng mã wiki mà bạn nghĩ là sẽ hữu ích cho học viên khác?"

Cao Xuân Hiếu (thảo luận) 15:01, 1/3/2011 (ICT)

Chủ đề 7[sửa]

"Ý nghĩa và cách đọc thông tin của một cây phát sinh chủng loài"

Cao Xuân Hiếu (thảo luận) 15:01, 1/3/2011 (ICT)

Cái này hơi lạc đề về clustalw, nhưng em k biết viết vào đâu cho hợp lý: dùng phần mềm nào để xem tree ạ? Sau khi đã chạy tree và boostrap tree rồi... Thêm nữa annotation đưa vào thế nào ạ?

Phạm Thạch Thảo (thảo luận) 23:13, 9/5/2011 (ICT)

Tree Format: [1]

Read tree (newich tree format) [2] from packages "ape".

Phạm Thạch Thảo (thảo luận) 12:07, 10/5/2011 (ICT)
Các phần mềm tạo cây BioEdit/MEGA/Mesquite thường tích hợp luôn bộ xem và đọc cây. Nếu cài ngoài thì thường dùng TreeView (nhỏ gọn), còn nâng cao thì dùng TreeGraph2
Cao Xuân Hiếu (thảo luận) 12:30, 10/5/2011 (ICT)
Ba trong số đó em không cài được kể cả tree view. Về vấn đề annotation: ta thực hiện edit file .ph? Em đã thử nhưng kết quả làm phylo tương đối khó nhìn.

Phạm Thạch Thảo


Em đang dùng treeview, nhưng em cũng không biết làm thế nào để cho tên loài vào cả, các anh chỉ cho em với ạ.

Lê Thị Trang (thảo luận) 18:32, 13/5/2011 (ICT)
Thứ nhất, có thể cho tên loài vào 1 cách thủ công trên BioEdit, hoặc MEGA.
Thứ 2, xem lại quy trình để tìm đâu là nguyên nhân mất tên loài, tìm cách loại bỏ. Hoặc nếu có thể Thảo tìm cách dùng R để gắn lại tên loài.
Cao Xuân Hiếu (thảo luận) 19:27, 13/5/2011 (ICT)
Em gắn lại với R rồi [3], theo cách nhận file vào là tree từ clustalw và một file annotation hai cột (cột đầu là ID, cột thứ hai là tên loài hoặc các thông tin khác muốn gắn vào, hai cột cách nhau bởi một tab) cho ra một file là tree đã gắn tên. Nếu ta muốn tên đầy đủ hơn thì để file annotation dài hơn. Jalview có mục load annotation file [4] nhưng em thấy cũng rắc rối. File annotation sẽ rất có ích khi cần nhóm các cá thể trong một loài với gói ape, vì vậy để tiện sau này ta nên viết annotation chuẩn theo taxonomy và nên chú ý thống nhất viết hoa và viết thường.
Phạm Thạch Thảo (thảo luận) 20:40, 13/5/2011 (ICT)
Em note lại chi tiết và hướng dẫn các bạn khác cùng làm nhé.
Cao Xuân Hiếu (thảo luận) 00:32, 14/5/2011 (ICT)
Em đổi lại format tí. Đã được ghi lại ở đây.
Phạm Thạch Thảo (thảo luận) 14:25, 14/5/2011 (ICT)
Có cách nào download tên chuẩn các loài (không chứa các cấp cao hơn) hay không ạ? Hiện thời nếu dùng tên gọi chi với loài lẫn lộn thì có thể dùng đoạn script sau để edit tao file qui chiếu loài (annotation) Tập tin:Createannotation.zip. Mô tả chi tiết em đã ghi lại trong note.
Phạm Thạch Thảo (thảo luận) 20:43, 15/5/2011 (ICT)

Chủ đề 8[sửa]

"Kinh nghiệm làm việc trên NCBI: tìm kiếm, định hướng, lưu trữ, phân tích kết quả..."

Cao Xuân Hiếu (thảo luận) 17:49, 1/3/2011 (ICT)

Trong khóa học, chúng ta cần download tất cả nucleotide sequences thuộc những taxon liên quan đến Họ Ba ba và Bộ Rùa.

Chủ đề 9[sửa]

Cách sử dụng phần mềm MEGA


Bạn có khó khăn gì khi làm việc với phần mềm MEGA thì viết dưới đây.

Lan: không biết làm bao nhiêu lần rồi mà không được, em down đúng phần mềm Mega 4, nó không hiện tương ứng các mục như trong video hướng đẫn. đúng là phải kiên trì

Bình tĩnh: Có thể video này hướng dẫn cho phiên bản MEGA cũ trong khi phần mềm đó đã nâng cấp rồi. Em cứ dùng phiên bản mới nhất. Nếu có khó khăn gì thì chụp lại màn hình và up lên đây.
Cao Xuân Hiếu (thảo luận) 13:15, 10/3/2011 (ICT)

Em không mở được MEGAS trên máy (Mac OS) không hiểu tại sao...

Phạm Thạch Thảo (thảo luận) 22:48, 9/5/2011 (ICT)
Với Mac phải cài thêm Virtual PC xem Mega với MAC
Cao Xuân Hiếu (thảo luận) 22:58, 9/5/2011 (ICT)
Xem ra không được rồi, em không có Administrator key nên không cài được Virtual PC!
Giải pháp thay thế có lẽ dùng Mesquite trên Java.
Cao Xuân Hiếu (thảo luận) 23:15, 9/5/2011 (ICT)

Chủ đề 10[sửa]

Cách sử dụng công cụ NCBI blastn. Trong khóa học, chúng ta sử dụng blastn đối với database nucleotide collection. Các thông số khác để mặc định. Nếu gặp khó khăn xin viết ở đây.


Chủ đề 11[sửa]

"Suy đoán tại sao nhóm tác giả lại sử dụng 3 gene nad4, cytb và 16S để giải trình tự? Bạn có đề xuất gene nào khác? Tại sao?"

Cao Xuân Hiếu (thảo luận) 22:13, 2/3/2011 (ICT)

Có thể một lý do là 3 gen này đều là gen của ty thể:

  • ADN ty thể có số lượng bản sao nhiều hơn ADN nhân nên việc thu được mẫu ADN ty thể có khả năng thành công cao hơn.
  • ADN ty thể có tần xuất đột biến cao hơn ADN nhân (do ở nhân có nhiều bộ máy để kiểm soát việc sao chép, nhân đôi ADN hơn), kết quả là mức độ đa hình của một vị trí gen nhất định trên ty thể sẽ cao hơn so với ở nhân. Mức độ đa hình cao có lẽ sẽ tốt hơn cho việc phân loại.
    Hồ Hữu Thọ (thảo luận) 08:54, 10/4/2011 (ICT)
Tại sao không phải gene khác trên ty thể mà lại là 3 gene này?
Cao Xuân Hiếu (thảo luận) 16:09, 7/5/2011 (ICT)

Chủ đề 12[sửa]

"Phân loại học phân tử được tiến hành thông qua so sánh sự khác biệt về trình tự ADN của ở các loài khác nhau. Vậy hiện nay để tiến hành phân loại học phân tử, người ta chỉ cần tiến hành phân tích một (nhóm) gen nhất định hay phải phân tích toàn bộ bộ gen để đưa ra kết luận về phân loại? " từ Thành viên:Hồ Hữu Thọ

  • Diễn giải thêm 1 chút về câu hỏi rất thú vị này của Thọ để mọi người tiếp tục thảo luận sâu hơn:
  1. phân biệt gene tree và species tree
  2. chi phí để phân tích toàn bộ genome của 1 loài không nhỏ, liệu có thể dùng 1 subset data (1 nhóm gene) để làm đại diện loài được không? Nếu được thì dựa vào tiêu chí nào để chọn gene, lấy bao nhiêu dữ liệu là đủ?
  3. liên hệ với chủ đề số 11
Cao Xuân Hiếu (thảo luận) 00:19, 3/3/2011 (ICT)
  • Tôi thử đưa ra ý kiến suy diễn riêng, hoàn toàn là suy diễn:

+ Rõ ràng chi phí phân tích toàn bộ bộ gene là rất lớn, hơn nữa yêu cầu thời gian tính toán chắc chắn là rất rất lớn và không khả thi. Hơn nữa bản thân mô hình chưa chắc đã có hiệu lực với toàn bộ gene (các tham số score trong so sánh hai chuỗi). Việc chọn một vài gene nào đó có lẽ bắt đầu từ việc đề xuất, dựa trên tiêu trí gene thuộc về các quá trình khác nhau, gene chịu áp lực tiến hóa (theo: en: Phylogenetic tree... Hệ gene đó phải được validate đối với các công nhận hiển nhiên về phân loài, chẳng hạn không thể để hệ gene được chọn phân con người ra là người loại A và người loại B dựa vào gene qui đinh nhóm máu. Tóm lại là gene sao cho ổn định cao đối với các các thể được thừa nhận trong một loài, khác biệt cao với các cá thể thuộc về hai loài khác nhau...

+ Gene tree và species tree khác nhau. Gene tree phản ánh quan hệ họ hàng của bộ gene, trong khi đó species tree phản ánh quan hệ phân loại kiểu hình (?).

Theo quan niệm chung, hai cây đó phải rất gần gũi nhau: Những gì khác biệt về mặt genetic phải thể hiện trong khác biệt về kiểu hình, đó cũng là một tiêu chí để quyết định bộ gene có phù hợp không (như trên.)

Theo tôi hiểu tiêu chí về phylogenetic thì gene tree phải xấp xỉ tốt species tree. Tuy nhiên xét về mặt lý thuyết thuần túy hai phân loại đó không nhất thiết và cần thiết giống nhau. Nếu bộ gene mà ta chọn ra có thể chứng minh được là phản ứng tương đối đầy đủ về mặt sinh học (nào đó) của cá thể, khi đó gene tree có thể coi là tree mô tả quan hệ họ hàng về mặt sinh học đó (không nhất thiết liên quan đến kiểu hình.)

Phạm Thạch Thảo (thảo luận) 20:26, 8/3/2011 (ICT)


Chủ đề 13[sửa]

"Những đặc điểm sinh học nào của loài rùa mà chúng ta cần lưu ý khi phân tích quá trình tiến hóa? khác với quá trình tiến hóa của các loài động thực vật khác."

Cao Xuân Hiếu (thảo luận) 15:34, 11/3/2011 (ICT)

Em đoán thôi, là rùa tiến hóa chậm.

Lê Thị Trang (thảo luận) 05:46, 7/5/2011 (ICT)
Em thử đưa ra lập luận vì sao rùa lại tiến hóa chậm. Có những công bố khoa học nào ủng hộ hoặc bác bỏ giả thuyết này.
Cao Xuân Hiếu (thảo luận) 16:07, 7/5/2011 (ICT)

Hi, em không biết, chỉ là ngày trước khi tham gia khóa học về kỹ năng nghiên cứu thực địa rùa cạn và rùa nước ngọt Việt Nam, em được giảng là rùa có những đặc điểm thích nghi tốt, nên từ hàng triệu năm nay chúng hầu như không có sự biến đổi gì nhiều nhưng vẫn tồn tại rất tốt ngoài tự nhiên, trước khi có sự tác động của con người.

Lê Thị Trang (thảo luận) 06:33, 8/5/2011 (ICT)

Tuổi thọ của rùa cao có thể là nguyên nhân của tiến hóa chậm.

Hồ Hữu Thọ (thảo luận) 09:44, 8/5/2011 (ICT)

Chủ đề 14[sửa]

"Trật tự các trình tự gene ở trong file đầu vào có ảnh hưởng như thế nào đến các kết quả phân tích sau này?"

Cao Xuân Hiếu (thảo luận) 00:52, 30/3/2011 (ICT)
Về lý thuyết em cho là không ảnh hưởng gì. Tuy nhiên cây nhìn có thể sẽ khác nhau, nhưng hoàn toàn có thể hoán vị lại vị trí để thu được cây như mong muốn.
Phạm Thạch Thảo (thảo luận) 21:08, 8/5/2011 (ICT)


Cho em hỏi một chút về bắt cặp trình tự và cách sử dụng phần mềm:

1. Trong các đoạn trình tự ta đem phân tích có các trình tự là toàn bộ gene ty thể, em đoán đây là một phần nguyên nhân làm cho việc bắt cặp tốn thời gian, và kết quả bắt cặp lần 2 khác so với lần 1. Vậy ta có thể cho các trình tự toàn bộ gene ty thể này bắt cặp với các trình tự RHG trước, cắt bỏ phần thừa rồi quay trở lại bắt cặp với các đoạn trình tự khác (làm như bình thường) được không ạ? Liệu có ảnh hưởng gì nhiều tới kết quả không ạ? (vì chưa có thời gian nên em cũng chưa làm thử)

2. Khi em đổi tên file (định dạng aln, dnd,...) cho dễ theo dõi thì em không mở lại được nữa, là do đặc điểm của phần mềm(clustal, bioedit...) hay là do em cài đặt có vấn đề ạ? (Em đã phải ngồi làm lại gần như từ đầu chỉ vì đổi tên file).

3. Khi em dùng bioedit hay clustal, em phải để file của em trực tiếp trong một ổ nào đó, tức là không được nằm trong folder nào cả (=> đường dẫn ngắn) thì chương trình mới chạy được. Điều này làm cho em mất thêm thời gian để sắp xếp lại dữ liệu và rất bất tiện. Có cách nào khắc phục được không ạ?

Lê Thị Trang (thảo luận) 10:01, 15/5/2011 (ICT)

1. Đồng ý với Trang về việc các trình tự toàn bộ gen ty thể sẽ làm thời gian bắt cặp lâu hơn khi tiến hành với ClustalW. Tuy nhiên, với mục đích loại bỏ trình tự thừa so với trình tự tiêu bản thì thay vì dùng ClustalW, ta có thể dùng phần mềm R với ứng dụng mà Thảo đã xây dựng. Với ứng dụng này thì Trang không cần quan tâm đến trình tự nào là toàn bộ gen ty thể nữa, vì tốc độ xử lý của nó vô cùng nhanh.

2. Khi mở file, Trang để ý có chỗ lựa chọn loại file sẽ mở.

3. Mình không thấy hiện tượng như Trang nêu, nhưng có thể tên file hoặc folder quá dài.

Hồ Hữu Thọ (thảo luận) 11:43, 15/5/2011 (ICT)


Cảm ơn anh Thọ, nhưng em thường để tên folder ngắn thôi mà (ví dụ nd4, hay nd4_all chẳng hạn). Em làm trên máy tính của trường cũng gặp hiện tượng như thế. Có thể nào do phiên bản của phần mềm em dùng ko ạ?

Lê Thị Trang (thảo luận) 15:25, 15/5/2011 (ICT)
Trang miêu tả kỹ hơn là đang dùng máy tính loại gì? hệ điều hành gì? phần mềm đang dùng phiên bản nào bao nhiêu? lỗi cụ thể hiển thị là gì? chương trình có thông báo lỗi là gì?
Cao Xuân Hiếu (thảo luận) 15:51, 15/5/2011 (ICT)


Thật không thể giải thích nổi tại sao, nhưng em vừa mở lại để chụp màn hình gửi cho các anh xem giúp thì không xuất hiện lỗi ấy nữa, hic, em không hiểu. Nhưng những lần trước thì nó xuất hiện thông báo "Cannot open file", và khi em nhấc file đó ra ổ E:\ thì chạy bình thường.

Em không hiểu anh Hiếu hỏi loại máy tính là sao, hệ điều hành em dùng windows7, phần mềm em dùng là clustalX2.1. Em không nhớ lỗi thông báo của bioedit.

Lê Thị Trang (thảo luận) 18:30, 15/5/2011 (ICT)

Chủ đề 15[sửa]

"Cây phân loại được vẽ bởi những trình tự tương đồng nhất với trình tự quan tâm (kết quả của NCBI blast) có ý nghĩa khác gì với cây phân loại được vẽ bởi trình tự thu được trong 1 đơn vị phân loại nhất định (ví dụ trong 1 Họ, 1 Bộ)?"

Cao Xuân Hiếu (thảo luận) 19:59, 9/4/2011 (ICT)

Hay nói 1 cách khác, liệu có thể định danh 1 loài (mẫu vật) bằng kết quả blast ncbi mà k cần phải vẽ cây phân loại như tiến trình ta đang làm?

Cao Xuân Hiếu (thảo luận) 12:58, 10/4/2011 (ICT)


Chủ đề 16[sửa]

Các giải thuật thay thế nucleotide / mô hình tiến hóa DNA nào là tốt nhất? xem en:Models of DNA evolution en:Models of nucleotide substitution. Liên hệ đến việc phát biểu như thế nào về ngưỡng giới hạn trong loài hay loài mới cho mang đúng tính khoa học nhất? % thay đổi gene, khoảng cách di truyền? hay 1 đơn vị nào?

Cao Xuân Hiếu (thảo luận) 21:48, 20/4/2011 (ICT)

Khi em tìm hiểu về các mô hình tiến hóa, tài liệu sau đã giúp ích cho em nhiều (vì em dốt toán), cũng chỉ là hệ thống lại kiến thức thôi ạ. [5]

Lê Thị Trang (thảo luận) 21:22, 18/5/2011 (ICT)

Chương 5 xem qua mình thấy khá nặng về đại số.

Phạm Thạch Thảo (thảo luận) 21:39, 18/5/2011 (ICT)

Chủ đề 17[sửa]

Ý nghĩa của việc bắt cặp trình tự và xóa bỏ các trình tự không đồng bộ?
Lê Thị Trang, 22:38, 6/5/2011 (UTC)

Theo tôi các kết luận chúng ta sẽ đưa ra dựa trên việc so sánh sự giống nhau của các loài quan tâm. Nếu bản thân các trình tự này không đồng bộ thì sẽ tạo ra sự khác nhau giữa các trình tự mà sự khác nhau này chẳng liên quan gì đến việc phân loại của chúng ta. Hay nói cách khác, sự không đồng bộ của các trình tự là một yếu tố nhiễu trong việc so sánh các trình tự với nhau liên quan đến phân loại.

Ngoài ra, các trình tự không đồng bộ làm mất thời gian xử lý của máy tính và có thể là phần mềm phân tích sẽ không chấp nhận.

Hồ Hữu Thọ (thảo luận) 18:39, 7/5/2011 (ICT)
Ngoài ra cũng để tránh các trình tự sai, phân loại sai v.v...
Phạm Thạch Thảo (thảo luận) 20:56, 7/5/2011 (ICT)

Chủ đề 18[sửa]

Phân bố của các sai khác trình tự di truyền (khoảng cách di truyền) giữa các cá thể trong 1 đơn vị phân loại có phải là 1 phân bố chuẩn hay không? Tại sao? Thiết kế thí nghiệm như thế nào để chứng minh hay bác bỏ.
Cao Xuân Hiếu (thảo luận) 12:23, 26/5/2011 (ICT)


Về câu hỏi này, em xin mạnh dạn đưa ra ý kiến như sau: Dữ liệu (số trình tự DNA chúng ta hiện có) của hầu hết các loài là không đủ để kiểm định giả thiết xem kcdt có tuân theo phân bố chuẩn hay không (hoặc có thể kiểm tra được nhưng sẽ đưa ra kết luận không đáng tin cậy, điều này thành ra vô nghĩa). Nhưng em đoán là nó cũng chuẩn thôi.

Tuy nhiên, xét về góc độ sinh học thì em hiểu, khoảng cách di truyền trong loài phải nằm trong một giới hạn nào đó. Giá trị lớn nhất ta tính được có xu hướng tăng dần nếu số lượng trình tự tăng dần và tiệm cận với một giá trị giới hạn. Giá trị giới hạn ở đây chính là giá trị lớn nhất khi ta so sánh được trình tự của tất cả các cá thể trong loài với nhau (điều này là không thể làm được).

Một vấn đề khác anh Thảo đã đặt ra là outlier (ví dụ như mình gặp phải đoạn nào mang đột biến nhiều quá chẳng hạn) thì sẽ cho ra một giá trị kcdt rất lớn, và giá trị đó không có ý nghĩa về mặt thống kê. Em nghĩ loại bỏ các số liệu này bằng các thao tác xử lý số liệu trước khi phân tích cũng không quá khó khăn.

Anh Thảo có thể làm thử với loài Geochelone nigra, loài này có tới 164 trình tự nên em nghĩ nó sẽ cho ra kết quả có độ tin cậy cao đấy ạ.

Nếu có nhiều trình tự hơn thì em thấy dùng giá trị trung bình cũng được, nhưng vì hầu hết các loài còn lại chỉ có dưới 5 trình tự nên em thấy dùng giá trị trung bình là hơi mạo hiểm. Hơn nữa bài toán của chúng ta cũng hơi nhạy cảm, vì phải so sánh kcdt giữa RHG với các loài khác nữa nên việc lấy giá trị nào ảnh sẽ ảnh hưởng nhiều tới tới kết luận. Theo em kcdt trong loài thì nên dùng giá trị lớn nhất, còn kcdt giữa hai nhóm sv cần so sánh thì nên dùng giá trị nhỏ nhất, so sánh hai giá trị này với nhau. Làm được như thế thì em nghĩ kết luận của mình sẽ chặt chẽ hơn. (Trong trường hợp ta kết luận hai nhóm này là hai loài khác nhau, trường hợp kia thì dùng hai giá trị lớn nhất ạ)

(Em cũng chỉ đặt ra vấn đề vậy thôi, nếu nó mất quá nhiều thời gian để giải quyết và kết quả cũng không mấy khá hơn thì cũng không cần thiết phải giải quyết tất cả đâu ạ).

Lê Thị Trang (thảo luận) 13:41, 26/5/2011 (ICT)
Trang và mọi người có thể khai triển thêm ý :"xét về góc độ sinh học thì em hiểu, khoảng cách di truyền trong loài phải nằm trong một giới hạn nào đó" được k? Cụ thể kiến thức sinh học nào ủng hộ hay phản bác điều này.
Cao Xuân Hiếu (thảo luận) 22:50, 26/5/2011 (ICT)
Thực ra một đại lượng nào đó có phân bố chuẩn là vì nó chịu ảnh hưởng của rất nhiều yếu tố khác nhau cộng lại. Một trong những yếu tố rất quan trọng là sai số đo đạc (sequencing) + sai số mô hình + sai số do chọn gene + ... Yếu tố sinh học sẽ không quyết định được khoảng cách phải bị cutoff ở đâu đó. Ví dụ khi đo chiều dài của thước kẻ, về nguyên tắc nó là một số chính xác nhưng sai số dẫn đến nó phân bố chuẩn. Đại để khoảng cách thực tế là chân lý nằm ở đâu đó "bất khả tri", cái mà ta đo, hoặc mô hình hoá là cái "khả tri" nhưng lại rất nhiều sai số. Vì lý do đó nếu khoảng cách chân lý giữa hai loài có giới hạn nhất định nào đó, thì khoảng cách mô hình hóa về cơ bản vẫn cứ biến thiên không tiên liệu được và sẵn sàng có long tail ngoài tầm kiểm soát (điều này ít nhiều liên hệ với sự khác biệt gene tree và species tree.) Hơn nữa, bản thân khoảng cách di truyền cũng không có "chân lý bất khả tri" (theo mình hiểu) như chiều dài thước kẻ.
Chính xác là số liệu không thể đủ để ta đi sâu vào phân tích (thực ra mình đã xem trường hợp 134 trình tự, có vẻ như loài này nhiều là vì bị bắt... hàng loạt từ một hai đầm gì đó, nên mặc dù nhiều, khoảng cách về cơ bản chỉ mang rất ít giá trị, mà hầu hết rơi vào d = 0.) Cách làm đơn giản hơn cả là có lẽ dùng clustering kiểu gì đó để quan sát vị trí của Rùa Hồ Gươm (tức là xây dựng cây phân loài - đúng ra là gene tree thôi - trên subset các trình tự chọn trước.) Max distance hay ở chỗ là hàm đẹp nhất có thể rút ra từ dữ liệu thuộc loại khoảng cách như thế, nhưng mình e là không dùng để làm tham số đặc trưng cho loài được (không vượt qua được giới hạn long tail ở trên) và chỉ dùng để quan sát chứ không thể đặt một khẳng định.
Phạm Thạch Thảo (thảo luận) 23:26, 26/5/2011 (ICT)


@ anh Hiếu: cũng chẳng phải là góc độ sinh học gì đâu ạ, ý em là kcdt có giới hạn vì số lượng cá thể trong loài tại một thời điểm xác định là một con số cụ thể. Ví dụ: chiều cao của người trưởng thành là một biến ngẫu nhiên tuân theo luật chuẩn nhưng tại một thời điểm thì vẫn có một người cao nhất.

@ anh Thảo: Em cũng đã hiểu ý anh phần nào, nếu kcdt chỉ để quan sát chứ không đặt khẳng định gì cả thì em cũng thở phào. Hy vọng ở những bài học sau em sẽ hiểu rõ hơn về chiến lược chúng ta đang dùng. Nhưng em nghĩ khi nghiên cứu thì việc đặt phán đoán ban đầu rất quan trọng, nếu phán đoán tốt thì mình sẽ thiết kế được quy trình thông minh. Anh Thảo có thể gửi số liệu về khoảng cách di truyền (đầy đủ) của các loài cho em được không ạ? Hôm nào rảnh em sẽ thử làm xem sao, theo em đang tưởng tượng trong đầu thì loại bỏ số liệu thô và lập ra 3 bảng lớn nhất, nhỏ nhất và trung bình cũng không tốn thời gian lắm. Dù việc làm này vô nghĩa nhưng nếu em có thể làm được và nó giải đáp được thắc mắc của em thì em vẫn muốn làm, hi…

Lê Thị Trang (thảo luận) 04:15, 27/5/2011 (ICT)
Anh bổ sung 1 chút: việc thu mẫu trong sinh học tuân thủ những nguyên tắc nhất định để khống chế những sai số như Thảo nói trên. Mọi người có thể đọc thêm tại Sinh học Đại cương/ Chương 1, hoặc bài dài, ngắn
Trường hợp cụ thể (134 trình tự) có thể xem thông tin ở Genbank format để tìm ra công trình đi kèm. Anh không nghĩ họ thiết kế thí nghiệm như Thảo nói. Những quan sát của mình về kcdt có thể phản ánh 1 sự thật.
@Trang: nếu xét thu mẫu tại 1 thời điểm, thông tin di truyền của tất cả các cá thể trong loài đều phản ánh lịch sử tiến hóa của loài đó (và tổ tiên cá thể đó).
Cao Xuân Hiếu (thảo luận) 08:15, 27/5/2011 (ICT)
@Trang: Tất cả những gì mình thử tính đều đã có upload đâu đó. Ở đây mình upload lại cả source, guide, và output (nhưng không kịp ghi comment cho source, đôi khi có những thay đổi nhỏ.) [6]
Phạm Thạch Thảo (thảo luận) 13:59, 28/5/2011 (ICT)

@ anh Hiếu: Em đồng ý là "nếu xét thu mẫu tại 1 thời điểm, thông tin di truyền của tất cả các cá thể trong loài đều phản ánh lịch sử tiến hóa của loài đó ", nhưng em vẫn chưa hiểu thông điệp anh muốn chuyển tới ở đây là gì, anh giải thích rõ hơn cho em được không ạ? hic...
Lê Thị Trang (thảo luận) 09:53, 27/5/2011 (ICT)
Anh muốn nói, cái chúng ta đang làm ở đây là so sánh từng đôi một trình tự giữa các cá thể ở thời điểm hiện tại (những cái lá trên cây tiến hóa). Điều mà chúng ta giả định là khoảng cách từ những cái lá này đến cái cành cây (tổ tiên chung của loài) là bằng nhau. Như thế, chỉ có phép đo khoảng cách trình tự cá thể hiện nay với trình tự giả định của tổ tiên chung là phân bố chuẩn (giống đo thước kẻ, đo chiều cao) hay giá trị trung bình có ý nghĩa. Trong khi đó, anh cho rằng khảo sát những kcdt của cá thể loài hiện tại có tác dụng nhìn xem tính đồng nhất của loài như thế nào. Vấn đề là làm sao phát hiện được vịt con giữa đàn gà.
Anh lại lái câu chuyện sang hướng khác, giả sử chúng ta có 1 trình tự nhất định, đem blast lên NCBI, lấy best hit(s). Chỉ khi nào độ tương đồng giữa trình tự query và trình tự hit nằm trong 1 biên độ an toàn (khoảng chính xác của phép đo) thì chúng ta mới có thể kết luận mối quan hệ tiến hóa giữa 2 trình tự. Làm thế nào tính được khoảng biên độ này?
Cao Xuân Hiếu (thảo luận) 23:55, 27/5/2011 (ICT)
Càng nghĩ em càng không tin tưởng vào distance lắm. Giả sử ta có trong loài S (gồm một số trình tự S1, S2, S3...), trong đó có một SNP, thì raw max distance nói chung là 1. Giả sử ta test trình tự A với loài S, giả thiết trình tự này không thuộc S và chỉ khác một Nucleotide (nhưng không phải chỗ SNP trong loài S.) Khi đó distance A đến các trình tự nói chung cũng là 1. Khi đó NJ sẽ k phát hiện được gì. Vặt khác MP sẽ phát hiện được sự khác biệt đó.


@anh Thảo: theo em hiểu thì khi kiểm tra xem trình tự A có phải loài S không thì công việc ta phải làm là so sánh A với S1, S2, S3… chứ nhỉ? (hay em đang hiểu sai cũng không biết nữa?) Và nều thế thì kcdt chắc chắn sẽ lớn hơn 1 rồi (chỉ có nhiều nhất một giá trị kcdt = 1).
Lê Thị Trang (thảo luận) 04:33, 29/5/2011 (ICT)
À không: ví dụ của mình sai :-P
Phạm Thạch Thảo (thảo luận) 14:04, 29/5/2011 (ICT)


@anh Hiếu: Chúng ta đang đo khoảng cách giữa các lá và khoảng cách đôi một giữa các lá này cũng có thể “chuẩn” mà anh. Nếu có bảng số liệu đầy đủ thì em sẽ kiểm tra luôn, nhưng chắc là phải đợi tới khi có kq với gene nd4, hic...Em cũng đang cố nghĩ xem ý nghĩa của việc nó chuẩn hay không là gì :D

(Sau 3 ngày em đọc lại mới hiểu hiểu một tí về những gì anh trình bày ở đoạn đầu tiên :( nhưng cũng chưa hết và còn có thể hiểu sai nữa, có gì em sẽ chỉnh lại kiến thức sau ạ.Chiều nay đi thi về em sẽ đọc tiếp xem sao.)

Lê Thị Trang (thảo luận) 04:50, 30/5/2011 (ICT)