Thảo luận:Lecture:Phân loại học phân tử/Tasks/4
Em thấy khó có thể thực hiện được thống kê trên vì số lượng trình tự trong một loài xem ra quá ít. Với 16S trừ hai loài nhiều nhất trong Testudines (Geochelone nigra (175), Chelonia mydas (31)) các loài kia chỉ có <5 trình tự nên về lý thuyết khó mà thực hiện được tính toán.
OK. Em thấy làm thế cũng hợp lý.
Anh sợ rằng không. Có thể chúng ta cứ coi tất cả phân loại là đúng đắn sau đó tính toán. Nếu phát hiện outlier thì tra cứu ngược lại.
Ta có cách để phân biệt các cá thể có phân loài chính thức và loại bỏ các cá thể không có phân loài chính thức ngay từ khi download không hay bắt buộc phải đọc ghi chú trong từng loài khi down mới nhận biết được ạ?
Genome nhiều chữ quá em đọc không nổi. Giờ em đang dùng hai cuốn của Warren J. Ewens Gregory R. Grant "Statistical Methods in Bioinformatics" và Paul G. Higgs and Teresa K. Attwood "Bioinformatics and Molecular Evolution" sẽ ghi chú lại dần.
Khoảng cách di truyền mà anh nói đến là genetic distance matrix, có thể xem qua tại cuốn Genomes. 2nd edition trên NCBI. Đây là cơ hội để làm quen với các giải thuật tiến hóa khác nhau.
Về hai khái niệm: "khoảng cách di truyền" có phải "disimilarity matrix" không ạ? Còn độ tương đồng Identity đại khái là gì thế ạ?
Việc có những missing value và thiếu data trong các mẫu sinh học là thường gặp. Mình phải tìm cách deal với nó thôi. Có hơn 2 trình tự "khác nhau" thuộc cùng 1 loài là tốt rồi.