Thảo luận:Lecture:Phân loại học phân tử/Nhóm 1
Em đang thử làm với gene cytb:
cytb_all gồm 1244 trình tự (đã loại bỏ các trình tự like)
-> bắt cặp -> cắt tạm thời các trình tự bằng với trình tự tiêu bản
-> loại bỏ 386 trình tự không có đoạn bắt cặp vơi trình tự tiêu bản
-> bắt cặp lại
-> loại bỏ 17 trình tự ngắn hơn trình tự tiêu bản (ít nhất 100 Nu)
-> Loại bỏ các cột gap (có ở tất cả các trình tự còn lại)
-> Được file cytb_all_841 còn 841 trình tự [[1]]
Tiếp tục thì em không biết cắt thế nào nữa. Anh Thọ và anh Hiếu xem rồi chỉ cho em nên cắt tiếp đến đâu và loại tiếp các trình tự nào được không ạ?
Vấn đề của mình là mình làm việc trên 1 dữ liệu của người khác tạo ra. Mình đặt giả thuyết ban đầu là trình tự mà nghiên cứu là trình tự quy định protein và rRNA là những trình tự đã được biết là khá bảo thủ. Do đó, ta không hy vọng tìm được những trình tự tích lũy rất nhiều đột biến. Vì vậy, những trình tự bắt cặp kém (rất khác so với trình tự cùng loại) được cho là (1) lỗi từ kỹ thuật xác định trình tự => chất lượng trình tự kém; (2) lỗi trong quá trình định danh, nhiễm mẫu từ loài khác nên trình tự => lỗi lẫn tạp.
Nếu ta ko loại những trình tự này thì rất khó tìm ra được 1 quy luật sinh học từ số liệu.
Anh Hiếu và anh Thọ cho em hỏi việc loại bỏ các trình tự bắt cặt kém có quan trọng lắm không ạ? Loại thì sao và không loại thì sao ạ? Em đang làm với gene cytb để so sánh với anh Thọ xem sao.
@ anh Thọ: Em nghĩ nên dùng Neighbour Joining Using BLOSUM62, em cũng chưa biết trường hợp nào thì dùng mô hình nào và ma trận hay thuật toán nào nên em có xu hướng chọn cái "được coi là chính xác nhất".
>em cũng hay làm với các trình tự trong họ baba trước, nhưng riêng việc cắt trình tự thì em phải cắt file all trước, sau đó cắt file tri đúng bằng như thế.
@ anh Thảo: việc loại bỏ các trình tự alignment rất kém có quan trọng lắm không ạ? (vì em không loại nên phải hỏi ngay). Em thấy người ta vẫn hay dùng outgroup mà.
>phát hiện có thay đổi hay không: em cũng làm giống anh Thọ, việc phát hiện aliignment có thay đổi hay không nhìn bắng mắt là thấy thôi mà. Vì các trình tự này đã được cắt hai đầu bằng (hay tương đối bằng), số Nu cũng đã biết, quan sát trước và sau khi bắt cặp lại là có thể biết được thôi ạ.
Mình ý kiến tí:
(i) Ngoài các trình tự ngắn hơn bình thường đôi khi có lẽ cũng phải loại cả các trình tự mà alignment rất kém.
(ii) Thọ làm thế nào biết là alignment "không có gì thay đổi" nhỉ?
(iii) Jalview mình có thử một lần nhưng không nhớ lắm. Hình như có mục indent hay gì đó mình hiểu sẽ tương tự như "raw", tức là đếm số mismatch.
Cảm ơn Trang, những chỉ dẫn của Thảo rất thuận tiện để làm theo. Mình đang tập phân tích với các trình tự trong họ Ba ba trước đã.
Anh Thọ đang làm với các trình tự trong họ baba và các trình tự blast được ạ?
Scrip của anh Thảo có thể gán tên loài vào cây phát sinh (.ph) Thành viên:Phạm Thạch Thảo/Note: Cách đưa thêm annotation vào tree, Em chỉ quan tâm đến mấy câu lệnh ở khung số 1, 3 và 4 thôi ạ, mấy cái còn lại chắc dành cho siêu nhân.
Sau khi tạo được file allname thì cũng có thể gán luôn tên loài vào trình tự (file fasta) rồi tạo cây sau, như thế sẽ không phải gán tên loài vào từng cây nữa và tính kcdt bằng phần mềm (em dùng mega) cũng tiện vì nó có tên loài luôn rồi. Việc gắn tên này có thể làm bằng R hay làm bằng excel cũng nhanh.
Scrip tính kcdt của anh Thảo Lecture:Phân loại học phân tử/Nhóm 3 sẽ tạo bảng kcdt của từng loài luôn, không phải gắn tên đâu ạ.
(Kinh nghiệm của em khi thực hiện mấy scrip của anh Thảo là đổi tên file giống như file của anh Thảo (vd đáng lẽ là nd4.annotation.txt thì em sẽ đổi thành 16s.annotation.txt... rồi chỉ phải thực hiện mỗi một lệnh là copy các câu lệnh trong scrip đó thôi. Có kq rồi thì đổi lại tên là nd4.annotation.txt sau cũng ko sao ^^)
(Em thấy anh Thảo tính kcdt với file all nên cũng bắt chước làm theo, nếu làm riêng với họ baba như anh Thọ sắp làm thì có lẽ sẽ giúp ích cho việc quan sát và nhận xét sau này.
Anh Thọ ơi, em đang phân vân về cây phát sinh chủng loại đưa ra trong bài báo của tác giả Lê Trần Bình 2010 (fig 5) cây này chắc không phải của gene 16s, cũng không phải của nd4, anh kiểm tra giúp em xem nó có phải của cytb không ạ? (trong bài báo tác giả bảo là cây của gene 16s).
@Lan: trong trường hợp này em phải thấy may mắn vì tiếng Việt phong phú, tài nguyên sinh vật nước ta đa dạng và kinh nghiệm quan sát của ông cha ta giàu có nên mới có nhiều vốn từ như vậy để mô tả sinh vật. Nó ko được chính xác như danh pháp khoa học nhưng cũng đủ rõ ràng trong mục đích sử dụng hàng ngày. Thế nên mình phải làm rõ vấn đề phức tạp này.
Thế giới người ta biết là : : " rùa" Về tới ta dịch ra rất nhiều loại: ba ba, giải, ... Vậy nên thuật ngữ ko được hiểu chính xác Trong bộ rùa thì có nhiều nhánh nhỏ tiếp theo, có phải baba, giải là 1 trong những nhanh đó...hay thế nào ? Mơ hồ quá
Đề nghị các học viên nhóm 1 tập trung vào nhiệm vụ chính:
"nhóm 1 tập trung vào dữ liệu (cả hình thái và trình tự gene) ủng hộ việc đặt rùa Hồ Gươm là loài mới;"
Anh
Thọ
ơi,
anh
đã
làm
xong
với
gene
cytb
chưa
ạ?
Anh
cho
em
xem
với,
em
xem
bài
các
anh
để
biết
nên
làm
thế
nào,
hic,
cứ
mò
mẫn
cũng
thật
vất
vả.
Nhận xét về 841 trình tự của cytb do Trang làm: