Thảo luận:Lecture:Phân loại học phân tử/Nhóm 3

Từ VLOS
Bước tới: chuyển hướng, tìm kiếm

PS: Nếu trong lệnh dist ta dùng option, sdist = dist.dna(ALIGN, model = method, pairwise.deletion = TRUE), thì kết quả rất gần với kết quả tính từ jalview với piecewise alignment, nhưng không trùng khít, không hiểu tại sao.

Phạm Thạch Thảo, 14:49, 5/6/2011 (UTC)

@kiểm tra kết quả với phần mềm: sorry cả lớp em hứa mà cũng chưa tập trung làm được, xin khất nợ tiếp hai tuần ạ.

Phạm Thạch Thảo, 13:58, 5/6/2011 (UTC)

Dạ vâng thưa anh.

Lê Thị Trang, 11:29, 2/6/2011 (UTC)

Trang viết lại chi tiết các bước bạn đã làm, kết quả ntn, thắc mắc gì vào trang nhóm 2 một cách có hệ thống. Như thế tôi sẽ dễ theo dõi hơn và giải quyết triệt để thắc mắc của bạn.

Cao Xuân Hiếu, 10:18, 2/6/2011 (UTC)

Cảm ơn anh Thọ ạ. Em hiểu là, cả hai cách làm (từ khóa phân loại và dùng advanced search như anh Thọ) đều đúng như nhau, và có thể, đều... thiếu như nhau, bổ sung cho nhau thì quả là tuyệt vời. Nhưng tại sao hai cách làm này lại cho ra kết quả khác nhau như vậy ạ? (tinh thần là tìm theo cách của anh Thọ sẽ cho ra ít trình tự hơn). Em thử tìm số tt của bộ rùa theo cách của anh Thọ thì được 1188 tt và trong đó cũng không có mặt 23tt kia.

PS: Thường thì đi học lúc nào em cũng thắc mắc mấy câu kiểu thế, nên cũng hay bị thầy mắng :-P. Nếu nó không quan trọng lắm và không phục vụ gì cho bài học, không cần phải quan tâm... thì em cứ tạm ghi vào sổ tay cũng được ạ.

Lê Thị Trang, 04:39, 2/6/2011 (UTC)

Chính vì tìm kiếm theo khóa phân loại không lấy được hết các trình tự trong database nên mới cần phải kết hợp với các cách tìm kiếm khác. Kết quả của Trang thu được như vậy theo tôi là hợp lý rồi.

Hồ Hữu Thọ, 17:05, 1/6/2011 (UTC)

Có một việc em không thể giải thích nổi: Em lấy được 113 số hiệu tt từ blast. Em đi từ khóa phân loại và tìm được 1345 số hiệu tt của toàn bộ rùa (với gene nd4). Em kiểm tra thì thấy có 23 tt có trong kq blast mà không có trong bộ rùa. Thoạt đầu em nghĩ 23 tt này phải nằm ngoài bộ rùa, nhưng em phát hiện ra mình đã sai khi kiểm tra 23 trình tự này thì chúng đúng là của các loài trong bộ rùa??? Các anh giải thích giúp em được không ạ?

Lê Thị Trang, 13:40, 1/6/2011 (UTC)

Việc đưa trình tự do blast vào trình tự tìm bằng từ khóa Phân loại có 2 ý nghĩa: 1) tránh trường hợp bỏ lỡ trình tự do những thiếu sót trong việc hệ thống theo khóa Phân loại; 2) tránh việc giả thuyết đặt vấn đề của mình (RHG thuộc họ Baba) là sai. Thế nên anh mới yêu cầu lấy những trình tự giống RHG nhất bỏ chung phân tích. Điều này cũng một lần nữa kiểm chứng liệu có khả năng dữ liệu SHPT có thể mâu thuẫn với dữ liệu phân loại hình thái (vì từ hình thái mình biết RHG là thuộc họ Baba rồi).

Về mặt nguyên tắc, dữ liệu càng nhiều thì phân tích càng sát với thực tế.

Cao Xuân Hiếu, 06:23, 1/6/2011 (UTC)

Anh Hiếu ơi, em thắc mắc một chút về file trio của anh Thảo ạ, em thấy anh Thảo cho toàn bộ các trình tự blast được vào chung với 34 trình tự tìm dược bằng từ khóa để bắt cặp. Vậy việc làm này có ý nghĩa gì ạ? Nếu như để tính khoảng cách di truyền trong họ thì em thấy làm như anh Thọ hợp lý hơn, tức là chỉ lấy những trình tự trong họ baba từ kết quả blast.

Lê Thị Trang, 04:51, 1/6/2011 (UTC)

@Thống kê & Trung bình: cảm ơn Thảo. Bây giờ câu hỏi của Trang dẫn đến một câu hỏi khác mà Thảo đã đặt. Phân bố của các sai khác trình tự di truyền (khoảng cách di truyền) giữa các cá thể trong 1 đơn vị phân loại có phải là 1 phân bố chuẩn hay không? Tại sao? Thiết kế thí nghiệm như thế nào để chứng minh hay bác bỏ.

Anh chuyển câu hỏi này đến Giảng đường chung mời mọi người tiếp tục.

Cao Xuân Hiếu, 05:24, 26/5/2011 (UTC)

@Trung bình và Max: great! ý kiến của Trang gợi ý rất hay, em xin phép nhiều lời về nó một chút.

Hàm Max là hàm thú vị hơn cả trong áp dụng này. Xét về mặt thống kê, bài toán là không bình thường ở chỗ: ta có sample n bậc tự do nhưng số liệu là n*(n 1)/2 số liệu. Sử dụng mean tương đương với xấp xỉ n(n 1)/2 # n, bí quá thì ta dùng tạm. Hàm Max không vướng phải khó khăn đó, mà nó đánh giá "bán kính" động của đám trình tự. Có hai nhược và cũng là ưu điểm thú vị:

(i) Trong trường hợp phân bố chuẩn số liệu Max không phải là một tham số (ước lượng của một tham số) đặc trưng cho loài. Theo nghĩa nếu ta tăng số lượng số liệu lên thì hàm Max sẽ tăng dần về lý thuyết đến vô hạn. Như vậy nếu giả thiết khoảng cách giữa các loài phân bố chuẩn thì hàm Max không có ý nghĩa gì cả. Tuy nhiên thú vị là nếu phân bố không có long-tail như chuẩn, mà hard cut, tức là hoàn toàn biến mất khi đủ lớn thì hàm Max sẽ tiệm cận đến giá trị đủ lớn đó. Vì vậy ta có thể dùng hàm Max và bỏ giả thiết phân bố chuẩn (which is not so correct), và điểm yếu của nó thực ra trở thành ưu thế. (Phân tích kiểu này gọi là en:extrem statistic.)

(ii) Hàm này có nhược điểm khác là đặc biệt nhạy cảm với outliers, vì vậy nhất định ta phải tìm cách loại bỏ outliers trước khi dùng (có thể làm được dù xem hơi phức tạp một chút.)

Mặc dù làm toàn bộ công việc đó ở đây có lẽ không cần thiết, nhưng về mặt phương pháp là rất thú vị khi thử giải bài toán đó.

Phạm Thạch Thảo, 05:15, 26/5/2011 (UTC)

@Thống kê & trung bình: Thảo có thể giúp anh đưa ra lời giải thích cho Trang được k?

Cao Xuân Hiếu, 04:04, 26/5/2011 (UTC)

Còn một điểm nữa em thắc mắc là giá trị kcdt trong bảng đưa ra là giá trị trung bình của tất cả kcdt tính được. Điều này có ảnh hưởng gì tới kết luận của chúng ta sau này không ạ? (ví dụ như kcdt > 0.04 thì là hai loài khác nhau chẳng hạn). Em nghĩ lấy cận trên thì hợp lý hơn.

Lê Thị Trang, 12:17, 25/5/2011 (UTC)

Vì em nghĩ số lượng trình tự càng ít thì khả năng giá trị kcdt ta tính được thấp hơn so với giá trị thực càng cao(đặc biệt vơi trường hợp chỉ có 2 trình tự). Số lượng mẫu càng lớn thì độ tin cậy càng cao chứ ạ.

Nhưng số lượng trình tự đem vào phân tích không phải là ý muốn chủ quan, chúng ta cũng đã cố gắng sử dụng triệt để dữ liệu hiện có rồi. Thế nên em nghĩ sai số thì cũng phải chấp nhận thôi ạ.

Lê Thị Trang, 11:53, 25/5/2011 (UTC)

@thống kê: trong trường hợp này anh nghĩ chúng ta không làm kiểu so sánh thống kê. Nếu loài nghiên cứu có n trình tự giống hệt nhau thì điều đó (gần như)là vô nghĩa về mặt phân tích. Tuy nhiên, nếu có 2, 3 trình tự có sai khác, thì đó là 1 thực tế mà chúng ta cần ghi nhận. Độ tin cậy của phân tích phụ thuộc vào độ chính xác của kết quả sequence, độ tin cậy của các phép phân tích hơn là số lượng mẫu (N).

Cao Xuân Hiếu, 11:41, 25/5/2011 (UTC)

Các anh cho em hỏi: trong trường hợp các loài chỉ có 2 hay 3 trình tự thôi thì kết quả tính kcdt trong loài có thể tin cậy được không ạ?

Lê Thị Trang, 11:34, 25/5/2011 (UTC)

@mô hình: ngoài ra mình cũng nên xem xét sự biến động của khoảng cách các mô hình ở các bậc phân loại cao hơn, như trong 1 chi, trong 1 họ. Nhiều dữ liệu sẽ cho mình cái nhìn nhiều chiều hơn.

Cao Xuân Hiếu, 06:58, 25/5/2011 (UTC)

@mô hình: tìm hiểu thêm về mô hình cũng tốt. Nhưng lưu ý trong trường hợp này mình ko phải chọn 1 mô hình duy nhất để đi tiếp. Mình có thể tách nhóm các mô hình và chọn các đại diện mà mình thấy hợp lý. Ngoài ra, mình hoàn toàn có thể quay trở lại đánh giá các mô hình bằng các công cụ khác ở các bài học phía sau (vd. khi dựng cây ML). Bài học này chỉ có tác dụng bước đầu tìm hiểu về các mô hình, ko cần phải nghiêm trọng hóa sự lựa chọn ở đây.

Cao Xuân Hiếu, 06:55, 25/5/2011 (UTC)

@anh Hiếu: Em sẽ sớm kiểm tra với softwares.

@Trang: Đồng ý là tìm hiểu thêm. Chủ yếu mình ngoại suy thôi, để đọc thêm lại cho chắc đã :D

Phạm Thạch Thảo, 06:34, 25/5/2011 (UTC)

Vì em vẫn nghĩ cách tìm ra tham số ở hai trường hợp này khác nhau nên em vẫn chưa hiểu lắm về hiện tượng overfitting trong mô hình tiến hóa, để em cố gắng tìm hiểu thêm vậy.

Em đồng ý là tùy vào mục đích nghiên cứu mà lựa chọn mô hình phù hợp, nhưng mục đích thế nào thì chọn loại mô hình nào ạ? Ví dụ luôn trong trường hợp này đi ạ, mục đích của chúng ta là xác nhận hai nhóm sv có cùng loài hay không (em hiểu là thế) thì tại sao lại chọn K80 ạ?

Lê Thị Trang, 05:32, 25/5/2011 (UTC)

@Trang: Mô hình càng về sau số lượng tham số càng lớn, nhiều tham số có thể dẫn đến hiện tượng phỏng số liệu xảy ra trong phân tích số liệu tổng quát (mình không rõ trong phân tích DNA có thực sự xảy ra hiện tượng đó không.) Khi đó số liệu dù rất sát với data, nhưng các số liệu ở lân cận data đó lại k đúng. Nếu không có một nhu cầu thực sự lớn thì mình không nên đi đến các mô hình phức tạp. Mình ví dụ như sau: chẳng hạn ta có dãy n số liệu (x_i) và (y_i) và cố gắng fit nó với công thức y = a x+ b. Tất nhiên ta có thể fit công thức bậc cao hơn đa thức cấp n và do đó có n+1 tham số, khi đó đa thức này tuy đi qua tất cả các điểm thực nghiệm nhưng khoảng giữa dao động một cách vô nghĩa en:Overfitting. Đó là lý do vì sao mình dừng lại ở mô hình ít tham số (vì thế các mô hình JC, K vẫn tồn tại khi có các mô hình fit cao sau nó.)

Phạm Thạch Thảo, 12:34, 24/5/2011 (UTC)

@ anh Hiếu: Em thấy câu hỏi này khó, nhưng em cứ thử đưa ra suy luận của em lúc này xem sao:

Ta tính được kcdt trong loài ở tất cả các loài (trong họ này) luôn nhỏ hơn 0.04 => đưa ra kết luận tạm thời: có thể ở trong họ này, các cá thể cùng loài thì kcdt phải nhỏ hơn 0.04( đồng nghĩa với 'hai nhóm có kcdt lớn hơn 0.04 thì thuộc hai loài khác nhau' (phản đảo)). Tuy nhiên, điều ngược lại (đảo) chưa chắc đã đúng, tức là kcdt nhỏ hơn 0.04 thì chưa chắc chúng thuộc cùng một loài => có những loài khác nhau nhưng kcdt nhỏ hơn 0.04.

Trong lịch sử phát sinh loài của các loài khác nhau sẽ có những sự kiện quyết định khác nhau, vì thế em nghĩ nên quay trở lại câu hỏi 'tại sao lại sử dụng 3 gene này để phân tích?'

Lê Thị Trang, 11:42, 24/5/2011 (UTC)

@Trang: đúng ý anh là vậy

@chọn mô hình: chúng ta chờ xem 2 gene còn lại như thế nào. Trong lúc đó mọi người tìm hiểu thêm về mô hình và cùng nhau hợp tác viết tóm tắt lại đâu đó cho dễ hiểu và đơn giản.

@Thảo: để cẩn thận thì Thảo chọn 1 hoặc 2 loài rồi tính 1 vài model từ các phần mềm khác để xem kết quả tính có cho ra các con số giống như package này k.

Cao Xuân Hiếu, 11:01, 24/5/2011 (UTC)

@ anh Thảo: Em cũng không hiểu lắm về cách chọn mô hình của anh, nhưng khi tìm hiểu về các mô hình này thì em thấy, K80 cho kết quả trung tính (so với các mô hình khác) là điều có thể tiên đoán được (điều này có thể kiểm chứng xem em đúng hay sai khi có kq từ các gene khác). Em nhóm các mô hình này theo 3 nhóm:

Nhóm 1: Raw, nhóm này em loại luôn vì nó quá đơn giản, chỉ dựa vào tỷ lệ sai khác.

Nhóm 2: gồm có JC69, K80, F81, K81, F84, T92 và TN93. các mô hình này có cùng nguyên tắc (hay dạng ma trận cơ bản) để tính kcdt, chỉ có điều là mô hình sau phức tạp hơn mô hình trước và gần với thực tế hơn. Ví dụ so sánh K80 và K81: K80 giả định rằng các tỷ lệ chuyển purin <-> pyrimidine là như nhau, trong khi K81 thì phân biệt hai loại A <-> T, G <-> C và A <->C, G <->T. Nói chung mô hình trước chỉ là một trường hợp đặc biệt của mô hình sau, kết quả kcdt của các pp này dường như tăng dần và tiệm cận với thực tế, nên trong nhóm này em ưu tiên chọn T93.

Nhóm 3: gồm có BH87, GG95, logdet và paralin. Nhóm này có cách tính kcdt khác với nhóm trên (em cũng chưa hiểu lắm) nên chẳng bàn tán được gì cả. Em rất muốn hiểu tại sao GG95 lại cho ra nhiều số 0 đến thế, tại sao logdet lại cho ra kq kcdt lớn như thế, tại sao BH87 và paralin lại cho kq thất thường như thế? Nhưng tìm tài liệu đọc có vẻ hơi khó (vì em vừa dốt toán vừa dốt tiếng Anh nữa, hic).

@ anh Hiếu: em hiểu câu hỏi của anh: ví dụ như bây giờ mình so sánh gene của 'Mauremys caspica' và 'Mauremys mutica' mà cho ra kcdt nhỏ hơn 0.04 thì giải quyết thế nào phải không ạ?

Lê Thị Trang, 10:36, 24/5/2011 (UTC)

@Mô hình: Như mình đã ghi chú, mô hình khác nhau mình chỉ thấy nói chung khác nhau ở cách xây dựng substitution matrix, số lượng tham số mà thôi. Giải thích tại sao nó ra thế thì mình cũng chịu rồi. Tuy nhiên mình có xu hướng dừng ở các mô hình với mức độ vừa phải, theo mode chung K80 được ưa chuộng hơn vì số lượng tham số vừa phải, và không quá thô như JC69. Trong trường hợp các mô hình cho kết quả khá sát nhau thì chọn mô hình phổ biến là hợp lý. Một số mô hình khác cho kết quả khác biệt (và khác biệt cả so giữa chúng với nhau) có lẽ nằm ở chỗ nhiều tham số gây overfitting.

Phạm Thạch Thảo, 05:08, 24/5/2011 (UTC)

Em nghĩ đợi được kết quả của các gene khác thì kết luận về các phương pháp sẽ chính xác hơn (mỗi tội em đang ôn thi nên hơi lười một tí :D). Và nếu tìm hiểu được thuật toán của mỗi phương pháp để giải thích được tại sao nó ra kq như thế (một cách tương đối) thì quyết định chọn hay không sẽ hay hơn. Anh Thảo cho nhiều mô hình lạ vào quá, nên thôi anh Thảo tìm hiểu đi! he..

Các anh cho em hỏi, các số 0 trong bảng số liệu cũ (40 loài) có ý nghĩa gì ạ? và có phải tất cả chúng đều có cùng ý nghĩa?

@ anh Hiếu: em nhấc logdet và GG95 ra để bôi màu các cột còn lại thì thấy paralin ko phải là mô hình cho kq cao nhất anh à, nó cũng thất thường giống BH87.

Lê Thị Trang, 21:57, 23/5/2011 (UTC)

nhìn hình mới của Trang thì cái GG95 có thể loại bỏ vì không cung cấp đủ thông tin. Cái LogDet thì nhiều khi không nói cùng câu chuyện với các bạn khác. Paralin hay vì nó thường lớn nhất. Anh nghĩ giờ mình chọn thêm 1 pp luôn cho số nhỏ nhất, và 1 pp luôn ổn định trung tính.

Ngoài ra để xem các gene còn lại như thế nào vì nếu chọn được tất cả cùng 1 pp thì là tốt nhất.

Cao Xuân Hiếu, 16:03, 23/5/2011 (UTC)

@Thank Trang đã xử lý bảng màu :-)

Phạm Thạch Thảo, 13:54, 23/5/2011 (UTC)

Anh dùng chức năng Conditional Formatting của MS Office 2007 hoặc 2010.

Cao Xuân Hiếu, 11:03, 23/5/2011 (UTC)

Anh Hiếu ơi, anh cho màu vào bảng bằng cách nào vậy ạ?

Lê Thị Trang, 10:49, 23/5/2011 (UTC)

@Cuora amboinensis: 2 số của JC69 và TN93 là khác nhau mà. Do anh kéo cột nhỏ nên nhìn thấy số hiển thị là giống. Mục đích của a chỉ là để hiển thị màu sắc cho dễ nhìn.

Cao Xuân Hiếu, 17:12, 22/5/2011 (UTC)

@Hai model cuối em thấy họ làm nên cũng... làm theo chứ cũng chưa check literature xem nó là cái gì :-D

@Cái em thắc mắc hôm qua là bảng 1 gradient màu ví dụ của Cuora amboinensis trông lạ lạ vì em thấy JC69 và TN93 giống nhau mà màu khác nhau?

Phạm Thạch Thảo, 14:55, 22/5/2011 (UTC)

@Cột cuối cùng là tại em copy thiếu một cột nên thực ra nó shift về bên phải một bước. Sorry mọi người. Em sửa lại bảng chi tiết rồi nhưng không biết tô màu như anh.

Phạm Thạch Thảo, 14:43, 22/5/2011 (UTC)

@Trang: đấy là tình huống giả định đối với data hiện nay mà mình nghiên cứu. Mình cần phải nghĩ trước để mà biện luận và xác định phương án ứng phó.

Cao Xuân Hiếu, 13:12, 22/5/2011 (UTC)

@ anh Hiếu: "Tuy nhiên, nếu khi mình tính sự khác nhau giữa các loài khác nhau mà cũng có nhiều trường hợp rơi vào biên độ 0-0.04". Anh Hiếu cho biết thêm về câu hỏi này được không ạ? Các loài này có thuộc nhóm các loài mà ta đang thống kê kcdt không ạ?

@ anh Thảo: em bảo PLHPT khác với PLHTT cũng hơi quá đáng, vì PLHPT đã có kq cuối cùng đâu, :D. Nhưng kết quả ban đầu hơi khác với kỳ vọng của PLHTT, ví dụ các loài gần nhau trong plhtt thì sẽ có kcdt trong loài gần nhau chẳng hạn, nhìn vào bảng 2 em thấy có một số loài gần nhau trong plhtt nhưng kcdt của chúng lại không gần nhau và gần với loài khác hơn.

Lê Thị Trang, 12:03, 22/5/2011 (UTC)

@Bảng: Thảo kiểm tra lại giúp anh, nếu thấy sai sót thì sửa và up lên hình khác nhé. Cái cột cuối cùng (mà anh để là E-value) anh ko rõ nó là cột gì em xác định lại và cũng giải thích về cách tính logdet, paralin để anh và mọi ng cùng rõ.

Cao Xuân Hiếu, 19:39, 21/5/2011 (UTC)

Ôi em trốn đi chơi chút xíu mà không hiểu anh Hiếu với Trang thảo luận gì nữa :D

@: Trang nói PLHPT và PLHTT khác nhau chút xíu là sao? Mình chưa thấy có cơ sở kết luận điều đó?

@: Mô hình, em vẫn còn thấy hơi mơ hồ khi đánh giá, tuy nhiên có một điểm về nguyên tắc có thể chú ý cùng mọi người: Mô hình quá đơn giản thường dẫn đến kết quả "cứng", số liệu biến động kém. Mô hình quá phức tạp thường dẫn đến "overfitting", số liệu sẽ biến động wildly.

@Bảng: Em thấy dựa trên bảng hai thì các mô hình khá gần nhau, gradient theo chiều dọc không bị chênh lệch theo chiều ngang. Bảng một chưa rõ lắm: em thấy gradient không đúng với giá trị thì phải?

Phạm Thạch Thảo, 19:27, 21/5/2011 (UTC)

@kq: anh cũng nhận xét như Tr. Như vậy trong số các pp mà anh hiển thị. Có 4 nhóm pp: 1) kq xu hướng cho số nhỏ, 2) kq xu hướng cho số lớn, 3) kq lúc lớn nhất, lúc lại nhỏ nhất, 4) kq luôn trung tính ko phụ thuộc taxa.

@paralin&logdet: a ko cho vào vì a chưa tìm hiểu rõ nó là cái gì :-P. Dù sao anh thấy có 1 pp khuyếch đại sự khác biệt. Nếu thế anh nghĩ cũng tốt với trường hợp các khoảng cách sát nhau quá. Vd. nếu như biên độ khác nhau giữa các loài trải từ 0 đến 0.04. Thì hai trình tự khác nhau hơn 0.05 mình giả định có thể là từ 2 loài khác nhau. Tuy nhiên, nếu khi mình tính sự khác nhau giữa các loài khác nhau mà cũng có nhiều trường hợp rơi vào biên độ 0-0.04. Vậy phải làm thế nào lý giải được điều này? Mọi người thử suy nghĩ xem và đưa ra ý kiến của mình nhé.

Cao Xuân Hiếu, 17:15, 21/5/2011 (UTC)

Anh cho em hỏi luôn, tại sao anh không cho số liệu của paralin và logdet vào ạ?

Lê Thị Trang, 17:07, 21/5/2011 (UTC)

Em vừa xem lại bảng của anh Thảo, và đối chiếu với bảng của anh, giờ thì em đã hiểu (nếu anh bỏ mấy số 0 ở những ô màu vàng và da cam, hiển thị chi tiết hơn số liệu ở các ô màu xanh và màu đỏ thì chắc em sẽ hiểu ngay  :D).

Nhìn vào bảng em cũng chỉ thấy mấy điểm: có sự sai khác giữa PLHPT và PLHTT(cũng chỉ là không khớp chút xíu thôi), bảng 2 chỉ ra: ngoài T92 thì các pp còn lại đều cho kq giống nhau về thứ tự kcdt của các loài. JC69 có xu hướng cho ra kq kcdt nhỏ hơn các phương pháp khác (có thể so thuật toán đơn giản), ngược lại với GG95.

Lê Thị Trang, 17:04, 21/5/2011 (UTC)

Sao em lại hỏi anh câu mà anh muốn hỏi em? Theo em nhìn màu sắc ở trên bảng thì có nhận xét gì về từng mô hình, điểm mạnh hay yếu ở trong trường hợp cụ thể này là gì?

@màu sắc: bảng màu ở biên ngoài bên trái là anh mô tả lại phân loại truyền thống của các trình tự. Những nhóm gần nhau sẽ có màu tương ứng giống nhau.

Cao Xuân Hiếu, 16:32, 21/5/2011 (UTC)

Hic, tại bảng cũng chỉ toàn số, không nhìn vào số em cũng chẳng biết nhìn vào đâu nữa. Em không nắm được phương pháp phân tích kết quả trong trường hợp này, các anh đang cố gắng chọn ra một hay một vài mô hình ổn định nhất (hay phù hợp nhất với gene ta đang làm), vậy nguyên tắc chọn lựa là gì ạ? (Em đọc quy ước màu của anh và xem lại hình cũng vẫn chưa hiểu, hic)

Lê Thị Trang, 16:27, 21/5/2011 (UTC)

@Trang: a chỉ đưa số liệu của Thảo vào bảng excell và màu hóa theo điều kiện để nhìn số liệu trực quan hơn. Đừng nhìn vào những con số. Bảng 1 anh làm gradient màu theo hàng ngang. Màu đỏ là số nhỏ nhất trong khi màu xanh là số lớn nhất. Màu vàng là số trung tính. Bảng 2 anh cũng color code theo cách như trên nhưng làm theo chiều dọc.

@mô hình chọn: tại sao lại bỏ đi mô hình khác xa với các mô hình còn lại?

Cao Xuân Hiếu, 16:17, 21/5/2011 (UTC)

@anh Thảo: Anh cho em hỏi số liệu đẹp là sao ạ? Vì em hiểu rằng ta sẽ bỏ đi các mô hình cho kết quả khác xa so với phần lớn các mô hình còn lại (không biết có đúng không?). Nếu đúng thì em nghĩ nên bỏ logdet, paralin và T92 (em dựa vào phương sai).

@anh Hiếu: Em không hiểu về nguyên tắc làm tròn số liệu của anh khi chuyển từ bảng của anh Thảo sang bảng mới, nên em nhìn bảng mới không hiểu lắm. Anh chỉ cho em được không ạ?

Lê Thị Trang, 16:10, 21/5/2011 (UTC)

@80x80: anh cũng nghĩ vậy

@others: đây cũng là lúc thích hợp để kiểm tra giả thuyết của Thảo nếu chúng ta align trình tự bằng các matrix và trị số gap penalty khác nhau thì có làm thay đổi khoảng cách di truyền hay k? Nếu không thì nó sẽ ko ảnh hưởng đến cây. Nếu có, thì làm thể nào xác định được đâu là kết quả aligment tốt nhất?


Cao Xuân Hiếu, 09:10, 21/5/2011 (UTC)

Theo em hiểu trước đây thì một bảng như vậy clustering theo kiểu Nearest Neighbors (method = "complete") sẽ trùng với giải thuật NJ trình bày trong Neighbor Joining (hoặc ít ra rất gần với nhau.) Em sẽ kiểm tra lại điều này. (Còn dùng các giải thuật khác của clustering có thể kết quả sẽ khác vì disimilarity không thỏa mãn ultrametric nên cây không duy nhất.)

Phạm Thạch Thảo, 07:15, 21/5/2011 (UTC)

@80x80: a chợt nghĩ làm matrix 80x80 rồi clustering thì sẽ như thế nào? Đó là tree đúng k?


Cao Xuân Hiếu, 05:46, 21/5/2011 (UTC)

Anh dọn dẹp bàn làm việc của Thảo và trình bày dữ liệu của Thảo vừa làm ra dưới dạng màu sắc. Mọi người thử đưa ra nhận xét của mình về kết quả này tại Tiến trình và phương pháp phân tích DNA của Rùa

Cao Xuân Hiếu, 16:42, 20/5/2011 (UTC)

@20*20 có lẽ em hiểu hiểu ý anh Hiếu rồi, có lẽ dựa trên đó ta sử dụng khoảng cách trong loài, trong chi, trong họ, hơn là ma trận khoảng cách tương đối.

@Về annotation chi và họ chắc phải giải quyết triệt để hơn, Thọ và Trang chắc chắn cũng cần annotation đó để góp nhóm các taxa.

Phạm Thạch Thảo, 15:03, 20/5/2011 (UTC)

Em thấy nếu theo bảng đó thì logdet, paralin, GG95 phải bỏ đi, các models còn lại... đẹp như nhau, kết quả sẽ không có gì khác lớn.

Về annotation theo cách xử lý của anh Hiếu sẽ có ít nhất một ngoại lệ là Viet_Nam_fresh... :D Em chỉ e vướng phải các ngoại lệ khác nữa, giá ncbi cho phép download một data dạng cây thế thì tốt hơn.

Phạm Thạch Thảo, 14:52, 20/5/2011 (UTC)

@20x20: khi so sánh trong chi thì ta đặt trong họ. Nghĩa là tách các bảng so sánh chi của từng họ riêng ra, không cần đồng loạt hiển thị (nhưng khi tính toán thì tính đồng loạt).

Cao Xuân Hiếu, 11:01, 20/5/2011 (UTC)

@20x20: anh có 1 idea đấy là combine các sequence thuộc cùng 1 loài tạo thành consensus sequence, ở các điểm conflict thì đặt theo mã IUPAC. Khi đó, số lượng trình tự so sánh giữa chi sẽ giảm.

@annotation: về mặt nguyên tắc trong danh pháp 2 phần thì từ số 1 là tên của Chi tiếp theo là tên loài. Ví dụ Homo (chi) sapiens (loài). Như thế em có thể tách phần tên chi ra từ hệ annotation hiện giờ.

Cao Xuân Hiếu, 10:58, 20/5/2011 (UTC)

Vâng, cái bảng đó là khoảng cách trung bình (n*(n-1)/2) khoảng cách nằm bên trong một loài. Lát em remove các hàng chỉ có một phần tử cho dễ nhìn. Còn thống kê khoảng cách giữa các chi em thấy vẫn nhiều (ví dụ 20*20) và khó nắm bắt được thông tin. Mặt khác em chỉ có annotation đến mức loài, cũng chưa biết cách nào annotate đến chi.

Phạm Thạch Thảo, 09:22, 20/5/2011 (UTC)

@cái bảng em vừa up là nội trong 1 loài đúng k? Xử lý nó để lựa chọn 1 hoặc 1 vài mô hình phù hợp với data nhất. Đấy là cách tiếp cận thứ nhất.

Cách thứ 2 là tính khoảng các các loài trong cùng 1 chi trước. Rồi sau đó tính khoảng các giữa các chi trong 1 họ. Như vậy sẽ tiệm cận giả thuyết hơn là nhìn 1 phát vào bảng 98x98. Em nghĩ cách làm đó có logical k?

Cao Xuân Hiếu, 08:17, 20/5/2011 (UTC)

Các vấn đề cải thiện summary cho đầy đủ và dễ theo dõi hơn em nghĩ có thể giải quyết tiếp, nhưng có hai vấn đề em chưa rõ giải quyết thế nào:

(i) Biểu diễn khoảng cách giữa các loài sẽ là một bảng 98*98 (loài * loài), và mỗi một mô hình cho một bảng như thế :-D Việc này có lẽ khá khó.

(ii) Chắc em chờ Trang và Thọ tính thử bằng bioedit xem có cùng kết quả hay không vì em thấy chương trình chạy... nhanh quá, k biết có chính xác với ý tưởng đặt ra không.

Phạm Thạch Thảo, 08:02, 20/5/2011 (UTC)

Số liệu rất nhiều để tìm hiểu rồi :-D. Theo anh thì mình có thể nhìn bảng số liệu theo 2 hướng.

1) có sự khác nhau đáng kể giữa các mô hình hay không? mô hình nào ổn định nhất đổi với gene này ở các taxa khác nhau.

2) ở mô hình ổn định và các mô hình khác, biến động về khoảng cách di truyền trong loài giữa các taxa là như thế nào? Biên độ và phân bố như thế nào? Có nhóm taxa nào biến động di truyền đặc biệt rộng(nhiều) so với nhóm còn lại.

Sẽ tuyệt vời nếu Thảo tìm cách đưa được bảng lên thành 1 trang wiki trên đây để mọi người cùng ngắm nghía (anh hiểu mã wiki ko hỗ trợ tốt lắm cho bảng). Mình có thể loại bỏ các loài có dữ liệu trống để bảng gọn hơn. Nếu tốt hơn nữa là bôi màu các số outliers.

Cao Xuân Hiếu, 07:18, 20/5/2011 (UTC)

@Trang: anh vẫn theo dõi lớp đều đặn để blogging mà :-D

Cao Xuân Hiếu, 14:25, 19/5/2011 (UTC)

Vâng, đúng là như thế, nhưng trong trường hợp em chẳng biết đường nào ngoài đường người khác đã đi thì thôi, đi tạm cũng được ạ.:d À, anh Hiếu thỉnh thoảng có thể chỉ cho em biết em đang làm đúng hay sai được không ạ, như thế em sẽ biết là em sai sớm hơn là để em tự khám phá ra và sửa nó. và cũng để em đỡ chệch ra khỏi quỹ đạo chung.

Lê Thị Trang, 14:01, 19/5/2011 (UTC)

@Trang: Anh có thấy nó đơn giản đâu. Anh làm đi làm lại mấy lần rồi đấy chứ!

@anh Hiếu: Về chuyện lặp 100 trình tự trong file kết hợp, em chợt nhớ ra em dùng cả hai trình tự 16S VN cho blastn nên kết quả thu được 100 cho mỗi gene, do đó có 200 chứ không phải tại em kết hợp file sai.

Phạm Thạch Thảo, 13:58, 19/5/2011 (UTC)

Anh tưởng ta sẽ học được nhiều điều từ thất bại hơn là từ thành công. Nếu đi theo con đường của 1 ng đã đi trước thì ta chỉ học được cách lặp lại đúng như người khác thôi.

Cao Xuân Hiếu, 13:51, 19/5/2011 (UTC)

Anh dã man thế? Em cứ phải làm sai rồi làm lại đến bao giờ chứ, chi bằng cứ cân nhắc cho cẩn thận rồi làm cho đỡ tốn thời gian. he.. Ước gì em có thể thấy nó đơn giản như các anh, còn giờ thì em phải cố gắng, cố gắng... vì em chẳng hiểu gì cả.

Lê Thị Trang, 13:48, 19/5/2011 (UTC)

@Trang: Sai thì ta lại làm lại tiếp :D @anh Hiếu: Em hiểu Trang hỏi phần download, sắp đặt trình tự, cắt trình tự... thôi.

Phạm Thạch Thảo, 13:41, 19/5/2011 (UTC)

Chắc em lại phải làm lại với gene nd4 nên em muốn hỏi anh xem anh Thảo làm đúng hay sai để bắt chước thôi ạ.

Lê Thị Trang, 13:31, 19/5/2011 (UTC)

việc dùng cách phần mềm khác nhau để tính toán cùng 1 vấn đề cũng có thể bổ sung và so sánh cho nhau.

Cao Xuân Hiếu, 12:59, 19/5/2011 (UTC)

Theo anh hiểu thì Thảo chưa kết thúc công việc. Vẫn đang tìm cách sử dụng R để tính toán, mới làm được phần đặt trình tự vào các bộ. Cần phải làm hết thì mình mới vỡ ra được problem.

@Thọ và Trang: theo tôi thì trong lúc chờ Thảo tối ưu R, mọi người sử dụng dataset của họ Baba để dùng các phần mềm có sẵn tính toán các khoảng cách di truyền trong và giữa các đơn vị phân loại. Bằng cách này mọi ng có thể tìm ra những vấn đề của data của mình và tự hiểu hơn về ý nghĩa của các thuật toán, tìm ra thuật toán phù hợp với gene của mình.

Cao Xuân Hiếu, 12:57, 19/5/2011 (UTC)

Sau khi có được tất cả các trình tự quan tâm, việc tiếp theo là tính khoảng cách di truyền giữa các taxon và làm quen với các giải thuật di truyền khác nhau, để xác định giải thuật nào phù hợp với gene và nhóm taxon mà mình đang nghiên cứu (xem nhiệm vụ bài 4).

Cao Xuân Hiếu, 10:48, 10/5/2011 (UTC)

@annotation: Có thể edit file tree để đưa annotation vào (em thấy tên của sequence bị cắt hết chỉ còn lai accession numbers) nhưng có cách nào hợp lý hơn không ạ?

Phạm Thạch Thảo, 12:44, 8/5/2011 (UTC)

@duplicate: do em k cẩn thận lặp file một lần nên số trình tự lặp tăng lên hơn bình thường, nhưng kết quả cuối cùng 375 trình tự khác nhau đã được kiểm là phù hợp.

Phạm Thạch Thảo, 12:11, 8/5/2011 (UTC)

@16s ALL: anh đề nghị cắt đầu 5' vào sau đến đoạn "GATGTCCTGATC"

Bỏ tiếp trình tự: GU213822.1 và GU213818.1 (vì đầu 3' và 5' ngắn hơn ref)

Cao Xuân Hiếu, 09:06, 8/5/2011 (UTC)

@duplicate: em nghĩ thêm xem sao :D

Phạm Thạch Thảo, 08:46, 8/5/2011 (UTC)

@Tên gọi và kết quả: Em nghĩ có thể tiếp tục chỉnh sửa và cắt sau này (vì đã cắt một đoạn dài nên chương trình khá nhanh và cắt tiếp sẽ khá dễ dàng.) Tên gọi: do em chạy lại toàn bộ quá trình từ download đến edit nên nhác chưa kịp sửa tên cẩn thận, thấy Thọ để thế cũng chạy được nên em để tạm, rồi sửa sau ạ.

Phạm Thạch Thảo, 08:24, 8/5/2011 (UTC)

@duplicate: nếu như thế thì tối đa là toàn bộ 100 seq nhóm 2 (từ blast) là bị trùng với dữ liệu đã có. Tuy nhiên, số duplicate đây là 185. Vậy 85 seqs có thể từ đâu tới?

Cao Xuân Hiếu, 08:21, 8/5/2011 (UTC)

@duplicate: Em nghĩ có thể như sau: file all của em kết hợp từ 16S.Tri (các trình tự của Tri), với 100 trình tự từ blast, cộng với các trình tự của Tes (not Tri) từ Thọ (tất cả dưới dạng accession number). File 1 và 2 có nhiều trình tự chung, file 2 và file 3 cũng có nhiều trình tự chung (vì blast lấy trên toàn bộ Tes.)

Phạm Thạch Thảo, 07:56, 8/5/2011 (UTC)

@hist.score: từ hình cắt ở 1600 loại 6,7 seq là hợp lý. Sau export hình ra dạng png rồi đưa trực tiếp lên VLOS thì mọi ng nhìn nhanh hơn

@clustalW trên EBI: nhìn kết quả thì tạm OK. Cái alignment cho all có vẻ ko ưng ý lắm ở đầu 5' bởi vì có những variation ở ngay tại trong vùng 10 nu đầu tiên của đầu 5'. Thông thường khi anh chọn vùng nghiên cứu thì anh chọn vùng được blank bởi 2 đầu khá bảo thủ, bởi như thế mình mới make sure là mình chọn đúng vùng orthologous. Ngoài ra, chợt nhận thấy một số tên trình tự xử lý chưa đồng bộ phải k?

@others: ko hiểu lắm vấn đề ở đây là gì. Tại sao lại có duplicates khi retrive seqs.

@annotation: giờ phải tìm cách assign và thống kê các trình tự vào các taxa tương ứng (taxonomy) để có thể so sánh dữ liệu phân tích giữa các gene (vì mình dự định chỉ lấy seq từ species có cả 3 gene đang nghiên cứu).

Cao Xuân Hiếu, 07:28, 8/5/2011 (UTC)

Khi đưa trình tự nonTri + Tri = allTri vào clustalw (trên server) thì máy báo lỗi trùng tên và không nhận file. Em đang tính down lại.

Phạm Thạch Thảo, 12:21, 7/5/2011 (UTC)

Em cắt theo cách sau: vẽ histogram của score [1], cắt các tại các vị trí long tail, có lẽ 1600 là số hợp lý hơn, khi đó sẽ cắt mất 6-7 trình tự...

Phạm Thạch Thảo, 12:18, 7/5/2011 (UTC)

@ERROR: ko hiểu rõ vấn đề ở đây là gì

@nonTri: xóa 11 seq là xóa khá nhiều data. Phải xem lại xem có cần rev&com lại 11 seq đó để đưa nó vào dataset k.

Cao Xuân Hiếu, 12:10, 7/5/2011 (UTC)

Loại bỏ 2 trình tự HM921189.1.Lissemys.punctata.andersoni.16SrRNA.p và HM921188.1.Nilssonia.hurum.16SrRNA.p. Degap và bắt cặp lại bằng ClustalW là được.

Cao Xuân Hiếu, 14:35, 2/5/2011 (UTC)

Xét về score thì lần này tiến bộ hơn hẳn :D Hi vọng là ok ạ! (Trong đó có hai trình tự vẫn rất kém chắc sẽ loại.) [2]

Phạm Thạch Thảo, 14:27, 2/5/2011 (UTC)

Hình như đúng như anh Hiếu nói, có vẻ kết quả tốt hơn hẳn, em up lại xem sao.

Phạm Thạch Thảo, 14:18, 2/5/2011 (UTC)

convert to complement strand

Cao Xuân Hiếu, 14:05, 2/5/2011 (UTC)

Reverse là mình đọc từ cuối lên trình tự đó hay ý anh là convert to complement strand ạ ([3])?

Phạm Thạch Thảo, 14:00, 2/5/2011 (UTC)

@Thảo: kết quả alignment ko tốt vì các trình tự VNSEQ để sai chiều. Em lấy reverse complement của các trình tự này và phân tích theo trình tự trên xem có khá hơn k.

Cao Xuân Hiếu, 13:31, 2/5/2011 (UTC)

@Thọ: Chạy thì rất nhanh (30 trình tự khoảng 5s), nhưng mình quả thật không biết kết quả nó OK đến đâu, lát kiểm tra và gửi anh Hiếu xem thử.

Phạm Thạch Thảo, 03:25, 2/5/2011 (UTC)

Code này sẽ rất hữu ích vì sẽ giúp cắt phần thừa so với trình tự tiêu bản nhanh hơn rất nhiều so với ClustalW, đặc biệt là khi cần làm việc với rất nhiều trình tự. Cảm ơn Thảo.

Hồ Hữu Thọ, 03:14, 2/5/2011 (UTC)

@Thọ: Đúng là mình nhầm mới chạy file riêng thôi chưa kết hợp với file của Thọ. Khối lượng tính toán chắc tăng theo N^2 đấy.

Phạm Thạch Thảo, 16:55, 29/4/2011 (UTC)

Dự định của mình là gộp tất cả file lại vào ba cái rồi chia nhỏ, nhưng nhìn tổng số trình tự có vẻ rất nhỏ, có thể lệnh gộp file của mình sai đâu đó, chắc tối kiểm tra lại xem. File tạm thời ví dụ ở đây [4]

Phạm Thạch Thảo, 05:47, 28/4/2011 (UTC)

Kết quả mà Thảo thu được là của tổng số bao nhiêu trình tự? Số lượng trình tự của các họ khác trong bộ Testudines sẽ lớn hơn nhiều so với số lượng trình tự trong họ Trionychidae, không biết Thảo đã thử chạy lần nào chưa?

Hồ Hữu Thọ (thảo luận) 02:26, 28/4/2011 (ICT)

@Anh Hiếu: Vâng, chắc muộn muộn em mới tiếp được, nhưng em thấy alignment như thế trông rất tệ mà.

@Thọ: Xử lý không chậm lắm đâu, mới đầu khi submit sẽ nói là trong vòng 8 ngày nhưng kết quả nhận được ngay ngày hôm sau.

Phạm Thạch Thảo, 15:20, 27/4/2011 (UTC)

EMBL: Hình như tốc độ phân tích online chậm hơn thì phải, không biết kinh nghiệm của Thảo về việc này thế nào?

Hồ Hữu Thọ (thảo luận) 02:20, 28/4/2011 (ICT)

việc sử dụng tool box trên EMBL để phân tích và lưu giữ số liệu là 1 ý kiến tuyệt vời. Mình vừa ko bị chiếm nguồn tài nguyên của máy tính mà dễ dàng chia sẻ cùng người khác.

Về kết quả alignment trong nd4 (mended) khá tốt rồi. Giờ Thảo có thể bắt đầu cắt bỏ đoạn không quan tâm.

Cao Xuân Hiếu, 10:23, 27/4/2011 (UTC)

nd4 (mended) [5]

Phạm Thạch Thảo, 18:10, 24/4/2011 (UTC)

nd4 [6]

Phạm Thạch Thảo, 18:08, 24/4/2011 (UTC)

Trên cluster cytb [7]

Phạm Thạch Thảo, 18:06, 24/4/2011 (UTC)

@Đúng là vậy, nhưng mình thường sử dụng khoảng 100 trình tự để multi-aligment cùng 1 lúc, nên nó vẫn tốt hơn (somehow) đối với pairwise.

Cao Xuân Hiếu, 08:38, 18/4/2011 (UTC)

Hôm trước em thấy anh Hiếu với Thọ nói chuyện chia file nhỏ hơn để chương trình chạy nhanh hơn. Em hiểu multiple alignment thì sẽ phụ thuộc cả vào cách chia file nữa?

Phạm Thạch Thảo, 03:56, 18/4/2011 (UTC)

cái pairwise theo anh hiểu thì nó sẽ nhét gap vào trình tự template theo các cách khác nhau tùy thuộc trình tự bắt cặp cùng là như thế nào. Điều đó có thể làm thay đổi template giữa mỗi bước pairwise.

Đúng là multiple alignment cũng có bước pairwise đầu tiên nhưng sau đó nó cố gắng tìm 1 consensus sequence (với các gap đã bỏ vào) chung cho toàn bộ trình tự được phân tích.

Cao Xuân Hiếu, 17:39, 17/4/2011 (UTC)

Nếu vì lý do nào đó vẫn muốn dùng pairwise thì nên dùng (Needleman-Wunsch) global alignment ví dụ:

globalAlign <-

   pairwiseAlignment(s1, s2, substitutionMatrix = mat, gapOpening = -5, gapExtension = -2)
Cao Xuân Hiếu, 17:36, 17/4/2011 (UTC)

À, em nghĩ mình cắt thì dùng pairwise nên mới dùng cái đó. Em nghĩ là pairwise trước, chứ nhỉ, hay em hiểu sai ạ?

Phạm Thạch Thảo, 17:34, 17/4/2011 (UTC)

@Thảo: bởi vì multiple alignments và pairwise aligment của nhiều trình tự là 2 thứ khác nhau. Thế nên nếu được, anh gợi ý em làm theo chỉ dẫn này và chọn option ClustalW cho thống nhất.

Cao Xuân Hiếu, 17:28, 17/4/2011 (UTC)

Anh Hiếu giúp em nhìn qua phần detail ở cái này được không ạ [8]. Trong đó giải thích các thuật toán, cách dùng nhưng em chưa hiểu rõ, có tương đương với cái mình dùng không ạ?

Phạm Thạch Thảo, 17:18, 17/4/2011 (UTC)

Do bệnh nghề nghiệp nên em thử tí. Làm R có cái lợi là qui trình ghi lại trực tiếp trong scripts luôn, sửa chữa và kiểm soát khá nhanh, thư viện cũng khá nhiều. Em vẫn đang thử nghiệm nên chưa có kết luận gì, chắc mai một khi nào rảnh em thử chạy bằng các phần mềm kia một hai trình tự để so sánh. Thọ cũng giúp mình so sánh một tay với, vì trong tuần đi học nên khó có thời gian thêm, để biết thông tin về lệnh nào mình luôn luôn dùng google thôi (cộng với từ khóa R.)

Phạm Thạch Thảo, 17:14, 17/4/2011 (UTC)

Thọ zip lại rồi upload kết quả lên để tôi nghía qua xem như thế nào nhé

Cao Xuân Hiếu, 17:10, 17/4/2011 (UTC)

Tôi đã chạy Clustal để cắt phần trình tự thừa của các trình tự 3 gen quan tâm trong họ Trionichidae. Số lượng trình tự khoảng 100 trở lại nên thời gian chạy thường không lâu (chắc khoảng vài chục phút gì đó).

Tôi cũng đã chạy được một lượt các trình tự của gen cytb trong bộ Testudines (khoảng 1000 trình tự). Vì thời gian chạy quá lâu khi để toàn bộ 1000 trình tự nên tôi phải chia nhỏ ra khoảng 50-100 trình tự để chạy ClustalW với 3 trình tự tiêu bản và cắt thủ công khoảng vài chục lần. Tổng thời gian xử lý và máy chạy hết khoảng 3 tiếng. Tôi đang kiểm tra những trình tự bắt cặp không tốt để xem có bắt cặp được với sợi - của 3 trình tự tiêu bản hay không. Nhưng hình như chúng cũng không bắt cặp tốt với sợi âm thì phải.

Hồ Hữu Thọ (thảo luận) 00:06, 18/4/2011 (ICT)

Tôi nghĩ rằng mọi ng khi tiến hành theo phương pháp nào thì cần ghi lại từng quá trình thực hiện cặn kẽ, cũng như thời gian và công sức mất vào đó như thế nào. Việc này sẽ hữu ích để 1) nếu có sự sai khác thì biết đường truy nguyên nhân; 2) tìm ra phương án tối ưu thực hiện nốt các nhóm gene khác hoặc làm đống loạt các gene cùng 1 phương pháp.


Cao Xuân Hiếu, 16:16, 17/4/2011 (UTC)

Thế thì cái lệnh này đặc biệt có ích để loại bỏ trình tự thừa đồng loạt nhiều trình tự, và tốc độ của nó chắc chắn nhanh gấp nhiều lần so với ClustalW. Khi nào hoàn chỉnh lệnh này, Thảo hướng dẫn cho mình thử với nhé.

Hồ Hữu Thọ (thảo luận) 23:09, 17/4/2011 (ICT)

@Thọ: Lệnh đó chưa hoàn chỉnh vì mình chưa biết chọn option type và điều khiển một vài thông số khác. Nhưng lệnh vừa rồi là so sánh trình tự tiêu bản VNSEQ với tất cả các trình tự khác allSEQ từng đôi một, đồng thời cắt phần thừa của các trình tự khác so với tiêu bản. Có thể dùng một vòng lặp khi muốn bắt cặp các trình tự đôi một với nhau (sẽ chạy lâu hơn gấp 1000 lần.) MultipleAlignment thì phải dùng lệnh khác.

Phạm Thạch Thảo, 15:35, 17/4/2011 (UTC)

Lệnh của R này Thảo dùng để bắt cặp hai trình tự hay bắt cặp cùng lúc nhiều trình tự được không?

Hồ Hữu Thọ, 14:26, 16/4/2011 (UTC)

Nhưng cuối cùng ta chỉ có các file với các sequences tên khác nhau trong file đó phải không ạ? Trong trường hợp đó ta có thể qui ước viết mã thư viện đầu tiên như anh đề nghị ban đầu. Em xem lại hướng dẫn đã rồi edit qui ước sau.

Phạm Thạch Thảo, 18:39, 23/3/2011 (UTC)

Mình nên sử dụng quy ước của Thảo để đặt tên cho trình tự trong fasta format.

Cao Xuân Hiếu, 18:36, 23/3/2011 (UTC)

Các tôi thường làm là download tất cả các trình tự xuống vào 1 file fasta sau đó mở text editor hiệu chỉnh tên seq theo ý mình. Sau cùng là dùng phần mềm so sánh bắt cặp tất cả các trình tự cùng lúc, và cuối cùng cắt bỏ các trình tự không mong muốn trên file text hoặc trực tiếp trên phần mềm rất dễ dàng. Bởi vì phần mềm có thể xử lý với vài trăm (nghìn) sequence cùng 1 lúc nên ko phải lăn tăn gì khi ở những bước download ban đầu.

Cao Xuân Hiếu, 04:54, 23/3/2011 (UTC)

Trong quá trình download rất dễ nhầm lẫn cắt file, nhận diện partial hay không, nhất là khi mỏi mắt. Có lẽ một trong những cách so sánh của nhóm mình với nhau là check độ dài file theo bytes để tránh các nhầm lẫn không đáng có. Bác nào biết lệnh check này cho em biết với nhé :D

Phạm Thạch Thảo, 18:54, 22/3/2011 (UTC)

[10] có chút trục trặc về tên...

Phạm Thạch Thảo, 18:41, 22/3/2011 (UTC)

@quy ước tên: Như vậy để theo cách của em. Cái anh lăn tăn là ko biết một số phần mềm khi đọc 10 ký tự đầu của tên thấy giống nhau thì nhận là cùng 1 trình tự. Nhưng cứ theo cách đặt của em trước rồi nếu có gì đổi lại sau.

Em viết lại quy ước này trên Dữ liệu DNA hiện có về Rùa để thống nhất với các nhóm khác

Cao Xuân Hiếu, 08:51, 18/3/2011 (UTC)

Như thế có vẻ không tiện cho việc sử dụng linux hoặc cmd anh ạ. Vì thông thường để truy cập đến một file đầu tiên ta gõ chữ cái, sau đó TAB để có tên loài, và có thể TAB liên tục. Nếu ta để tên thư viện ở đầu, mỗi lần truy cập sẽ phải gõ tên thư viện trước, cái đó rất khó nhớ.

Phạm Thạch Thảo, 06:26, 18/3/2011 (UTC)

@về cách đặt tên anh đề xuất hơi chuyển thứ tự 1 chút thành: XYZ123.Trionyx.Axenaria.16SrRNA.fasta để có gì mình tìm lại trình tự trên ncbi nhanh hơn.

@về loài khác thuộc bộ Rùa, em đề xuất đi, chú ý lấy loài mà có cả 3 gene mà mình quan tâm.

Cao Xuân Hiếu, 06:18, 18/3/2011 (UTC)

Với 2 accession number khác nhau thì tính là 2 cá thể khác nhau. Đọc comment của NC_014054.1 thì thấy trình tự này chưa được review trong khi trình tự chuẩn là FJ890514.1. Cứ lưu cả 2 lại.

Cao Xuân Hiếu, 17:53, 17/3/2011 (UTC)

Nếu hai phiên bản không có tên khác nhau trong report mà có mã số truy cập khác nhau thì là hai con khác nhau hay một ạ? Ví dụRNA Apalone ferox

Phạm Thạch Thảo, 17:32, 17/3/2011 (UTC)

lấy thêm 1 vài trình tự bên ngoài Trionychidae nhưng có tên loài chính xác. Để ktra giả thuyết xem RHG có thực sự nằm trong Trionychidae hay k?

Cao Xuân Hiếu, 17:29, 17/3/2011 (UTC)

@Pelodiscus sp. MTD TD 5097: anh có bảo tránh đâu. Lấy hết nhưng phải chú thích ra để biết. Đừng sót số liệu.

Cao Xuân Hiếu, 17:09, 17/3/2011 (UTC)

cách làm của em có thể làm download sót trình tự, nên đi từ NCBI Taxonomy rồi download theo đó

Cao Xuân Hiếu, 19:06, 15/3/2011 (UTC)

3 fragments (genes) còn 8 trình tự là từ 3 mẫu (cá thể) khác nhau

Cao Xuân Hiếu, 18:11, 15/3/2011 (UTC)

OK, em hiểu rồi. Ta bổ chỉnh sửa dần dần vậy, nhưng các dữ liệu chắc không thống nhất nhau lắm với các họ xa... :D

Phạm Thạch Thảo, 17:37, 14/3/2011 (UTC)

đúng là ncbi giả định là tất cả các họ đều cách xa tổ tiên chung 1 khoảng như nhau. Hay nói như em là ở 1 mức ngang nhau. Nhưng sẽ là tốt hơn nếu mình tìm hiểu thêm thông tin từ các khóa phân loại khác, từ đó hình dung được vị trí quan hệ nên có giữa các họ (họ nào gần gũi với họ nào hơn các họ khác) và mình sử dụng thông tin này để kiểm định các cây phân loài mà mình sẽ xây dựng sau này. Em có đồng ý k?

Cao Xuân Hiếu, 17:21, 14/3/2011 (UTC)

Em tưởng theo ncbi như thế là tất cả các họ đặt ở cùng một mức thì hoàn toàn ngang nhau, do đó có thể sắp xếp họ theo thứ tự tùy ý, và ví dụ thứ tự alphabet, mình sao sửa để gần gũi hơn được ạ?

Phạm Thạch Thảo, 17:15, 14/3/2011 (UTC)

Lưu ý mọi người cần chú ý bên NCBI xếp các chi theo thứ tự ABC chứ không phải theo vị trí phân loại theo phân họ, siêu họ. Mình nên chỉnh cho nó theo quan hệ họ hàng luôn cho chuẩn :D

Cao Xuân Hiếu, 17:00, 14/3/2011 (UTC)

Thảo bỏ thông tin vào bài này để mọi người cùng hiệu chỉnh luôn vì mình cần để download trình tự từ đây.

Cao Xuân Hiếu, 16:59, 14/3/2011 (UTC)

OK, em cho thêm ncbi bây giờ chỉnh lý dần.

Phạm Thạch Thảo, 16:07, 14/3/2011 (UTC)

Thảo ơi, mình nghĩ nên bắt đầu từ NCBI bởi anyway mình chỉ lấy được seq từ đây :-P

Cao Xuân Hiếu, 15:08, 14/3/2011 (UTC)

Uh, siêu họ Trionychoidea thì lấy đầy đủ đến loài, còn các loài bên ngoài siêu họ này thì mỗi họ lấy tên 1 loài đại diện.

Với lại mình chỉ lấy tên loài thôi, những tên dưới loài hoặc loài chưa xác định thì chưa cần lấy.

Cao Xuân Hiếu, 16:35, 13/3/2011 (UTC)

Báo cáo sếp Hiếu, em thấy nếu đưa toàn bộ Rùa vào thì xem ra hơi dài, sẽ khó theo dõi, có lẽ ta nên dừng ở siêu họ Trionychoidea hoặc phân bộ Cryptodira (cũng đã dài và không dễ so sánh lắm)?

Phạm Thạch Thảo, 15:14, 13/3/2011 (UTC)

@cây: tôi chỉ đề nghị đưa lại danh sách các loài thuộc bộ Rùa vào 1 trang để thuận tiện cho các phân tích tiếp theo. Ta không nên đưa vào 1 hình (cây) vì rất mất công chỉnh sửa, hiệu đính và và tranh luận. Cụ thể, tôi để nghị copy danh sách các loài đã có trong Bộ Rùa trên NCBI Taxonomy vào 1 trang. Kiểm tra lại xem cách phân loại trên NCBI Taxonomy có mẫu thuẫn với các phân loại khác nhau, nếu có thì mình ghi chú ra để sau này biết đường thảo luận.

Cao Xuân Hiếu, 10:48, 13/3/2011 (UTC)

Các bạn nhóm 3 lưu ý, nhiệm vụ của các bạn là

"nhóm 3 hệ thống lại các khóa phân loại liên quan đến vi:Bộ Rùa vi:Họ Ba ba hiện nay trong đó đặc biệt chú trọng sự khác biệt giữa khóa phân loại trên NCBI Taxonomy với những khóa phân loại trên Wikipedia (tiếng Anh) reptile-database, Wikispecies, ITIS". Không phải chỉ tập trung vào RHG mà lấy về 1 cây phân loại chung và được thừa nhận rộng rãi của bộ Rùa.

Cao Xuân Hiếu, 07:53, 13/3/2011 (UTC)

1) Vietnam freshwater turtle BLT-2003 (Lê Trần Bình) Rafetus leloii (Hà Đình Đức, 2000) Rafetus hoankiemensis(2000) Rafetus Vietnamensis (2010) đều nói đến loài rùa ở hồ Gươm. 2)tóm chung thì khóa phân loại của rùa như sau:

  • Theo wiki tiếng việt và wikispecies:

thuộc chi: Pelochelys hoặc chi Rafetus/ phân họ: Trionychinae/ họ: Trionychidae/siêu họ: Trionychoidea /phân bộ: Cryptodira/Bộ rùa: Testudines

  • Theo NCBI thì rùa mai mềm Thượng Hải thuộc loài Rafetus Swinhoei/ chi: Rafetus / họ: Trionychidae

còn loài Vietnam freshwater turtle BLT-2003 (Lê Trần Bình)thì chỉ thấy thuộc họ: Trionychidae mà không thấy thuộc chi nào. E ko biết là e hiểu như vậy có đúng không vì e thấy cách dùng dấu tròn trắng, đen và thụt hàng để phân loại trong trang này không đống nhất với nhau.???

  • Theo Reptile database thì loài Rafetus leloii (Hà Đình Đức, 2000) và giải ở Thượng Hải cùng thuộc về loài Rafetus Swinhoei(Gray, 1873)
Vatili, 07:44, 13/3/2011 (UTC)
Cũng theo Reptile database thì rùa Hồ Gươm là một loài khác với Rafetus swinhoei? ([9])
Hồ Hữu Thọ (thảo luận) 14:32, 26/3/2011 (ICT)

v/v Phân họ và chi: Họ > Phân họ > Chi. Phân họ là 1 đơn vị phân loại (ko chính thức) trung gian giữa Họ và Chi (Giống). Nghĩa là trong 1 phân họ có nhiều chi.

Cao Xuân Hiếu, 18:38, 10/3/2011 (UTC)

==

Cho em hỏi chút, kết quả blastn có thể bao gồm cả những trình tự của các loài không thuộc họ Trionychidae phải không ạ?

Lê Thị Trang (thảo luận) 10:25, 18/5/2011 (ICT)

Theo mình hiểu về nguyên tắc là có thể (có thể là động vật nói chung nữa - trừ người và chuột thì phải.)

Phạm Thạch Thảo (thảo luận) 10:28, 18/5/2011 (ICT)


Anh Hiếu ơi, anh Thảo làm đúng không ạ? Anh chấm điểm đi ạ.

Lê Thị Trang (thảo luận) 09:46, 19/5/2011 (ICT)