Thảo luận:Dữ liệu DNA hiện có về Rùa
@ Thảo: - Bất cứ trình tự nào có chữ pseudo trong tên trình tự đều được loại bỏ trong quá trình sửa tên trình tự. - Theo như phát hiện của Trang thì kết hợp kết quả của tất cả các phương pháp tìm kiếm sẽ thu được nhiều trình tự cần cho phân tích nhất.
Làm theo cách đi từ cây phân loài có cái lợi nữa là do anh Hiếu chỉ. Vì vậy sai chỗ nào cả lớp mình cứ anh Hiếu mà bắt đền.
Nhân tiện cho mình hỏi: Với Trio blastn Thọ có thực hiện loại các trình tự có ghi chú "pseudo" không, hay chỉ thực hiện việc loại bỏ đó với Testudine vậy. Đến giờ dữ liệu ngoài Trio mình dùng hoàn toàn dựa trên assession mà Thọ đã upload, vẫn chưa làm được độc lập :D
Vâng, em cảm ơn anh nhiều ạ! Giờ thì em đã hiểu hơn, hy vọng mấy câu hỏi "hơi ngớ ngẩn" của em không lúc nào làm cho anh bực mình.hi...
Tôi thấy chẳng có phương pháp nào sai cả, kết hợp cả hai lại để lấy được nhiều trình tự hơn có lẽ là cách tốt nhất. Về kết quả 100 blast hit, theo tôi phải xác định trong kết quả đó trình tự nào thuộc phân loại nào để sử dụng đúng theo ý đồ của phân tích. Ở phân tích này chúng ta cần phân định rõ trình tự nào là Trionychidae, trình tự nào không phải Trionychidae nên kết quả blast hit cũng cần được phân chia thành hai nhóm và gộp với kết quả từ tìm kiếm được bằng từ khóa.
À vâng, là em sai ạ, chỉ có 48 trình tự theo cách làm của anh. Nhưng anh Thảo chỉ cho em làm theo một cách khác là đi từ cây phân loại [[1]] và ra 60 trình tự. Vậy hai cách này khác nhau thế nào ạ?
Còn câu hỏi em rất thắc mắc mà anh chưa giải đáp cho em là trong 100 blast hits, chúng ta chỉ lấy những trình tự của các loài trong họ baba hay lấy cả ạ?
Trang đọc kỹ lại phần cách làm mà tôi ghi lại, đặc biệt là đoạn chọn Field để ghi từ khóa, vì theo cách đó tôi thấy chỉ có 48 trình tự thôi. Có thể cách của Trang là một cách khác hay hơn.
Hi, Em vừa làm lại theo cách của anh (nucleotide -> advanced search -> (trionychidae)AND nd4) thì em được kết quả gồm 61 trình tự, hic...
Vậy là trong số 100 blast hits thu được, ta chỉ lấy những trình tự nào thuộc họ baba thôi ạ? Nếu thế thì số 69 có thể hợp lý, và em nghĩ như thế sẽ logic hơn về mặt phương pháp. Nhưng em xem qua cách làm của anh Thảo thì em thấy anh ấy sử dụng cả, hic... Em hy vọng với cả ba gene chúng ta sẽ có sự thống nhất.
@ anh Thảo & anh Hiếu: Nếu các anh thấy em và anh Thọ đang sai cái gì đó buồn cười lắm thì các anh góp ý được không ạ, chứ...đừng ngồi cười nhé, hi...^^
May mà Trang lôi ra hỏi mới có cơ hội nhớ lại, cảm ơn Trang. Cái 69 trình tự đấy là tổng hợp từ tìm kiếm từ khóa và blast. Tìm kiếm từ khóa thu được 48 trình tự và những trình tự còn lại thu được từ kết quả blastn. Tìm kiếm theo từ khóa, Trang nên làm theo cách mà tôi vừa dẫn ra. Kết quả blast thu được thì Trang lưu ý là nó có cả các trình tự của họ Trionychidae và của cả họ khác trong bộ Testudines nữa.
Hi, có sao đâu ạ, tại anh làm lâu quá rồi mà giờ em mới lôi ra hỏi. Anh cho em thắc mắc thêm chút nữa nhé. Vì cả hai kết quả (trong họ baba và blastn) em đều khác anh, của em là (60 trình tự trong họ) (72 trình tự mới thu được từ blastn), nên hôm nào có thời gian anh thử làm lại cho em so sánh kết quả được không ạ?
Em chưa hình dung ra cách lấy accession number của các trình tự từ các loài ngoài họ mà có cả 3 gene hay cách xóa đi các gene giả. Anh chỉ cho em được không ạ? Giả sử em dùng từ khóa như vừa rồi và lấy được 1285 trình tự, việc tiếp theo em phải làm là gì ạ?
Xin lỗi Trang tôi nhớ không chính xác lắm, 69 trình tự có lẽ thu được từ tìm kiếm bằng từ khóa. Tôi mới nhìn qua kết quả đã được đưa lên đây thì thấy ghi là đã blastn với toàn bộ trình tự tiêu bản tương ứng, chứ không phải với một trình tự. Tổng số trình tự mới thu được từ blastn là 83 trình tự. Như vậy tổng số trình tự của gen nd4 của Trionychidae là 69 83 trình tự.
Vậy 69 trình tự trong file trionychidae là bao gồm những gì ạ? Vì em tìm trong họ trionychidae thì chỉ cho ra 60 trình tự, còn nếu kết hợp với 100 blast hits nữa thì phải lớn hơn 100 rồi.
Khi làm thì em nhận thấy blastn cả 3 trình tự sẽ cho ra nhiều kết quả hơn blastn 1 trình tự anh ạ (tức là có những kết quả không trùng nhau). Kết hợp 300 blast hits và 60 trình tự của trionychidae, em down được 132 trình tự. Không biết em có đang hiểu sai rồi làm sai cái gì không nữa,:(
Theo hướng dẫn của anh Hiếu, tôi chỉ chọn lấy những trình tự ở các loài mà có trình tự của cả 3 gen cytb, nd4 và 16S. Từ khóa của Trang dùng như vậy mình nghĩ là được, nhưng có một cách khác mình đã ghi lại ở đây [[2]] Các trình tự nd4 tìm được của Trionychidae không có các trình tự pseudo hay like. Các trình tự cuối cùng đều được kết hợp phần tìm kiếm bằng từ khóa với kết quả của 100 blast hit. Với mỗi gen thì tôi lấy một trình tự tiêu bản ra để blastn, và tôi cũng để ý thấy trong kết quả 100 blast hit có các trình tự tiêu bản còn lại. Chữ pseudo và like tôi nhận thấy trong phần tên của các trình tự và anh Hiếu nói nên loại những trình tự đó.
Anh Thọ ơi, em tìm trình tự ngoài họ baba thì có tới 1285 trình tự cơ ạ, hic, không biết em đang sai chỗ nào? Em dùng từ khóa ((testudines) NOT trionychidae) AND nd4. Anh xem lại rồi chỉ cho em nhé.
Trong file Trionychidae (nd4) của anh có 69 trình tự, file anh chưa bỏ pseudo hay like thì nó có bao nhiêu trình tự ạ? (em hiểu là file trionychidae gồm các trình tự của họ baba và các trình tự của kết quả blastn) Anh blastn cả 3 trình tự hay chỉ một thôi ạ? À, anh loại bỏ gene giả bằng cách nào ạ?
Cảm ơn anh Thọ nhiều ạ, hiện giờ trong đầu em đang trống rỗng, bắt đầu từ chiều mai em sẽ hỏi anh ồ ạt, hic...
Trong phần mô tả của Tập tin:All sequences Edited name.zip, tôi ghi chú thích là đã loại bỏ các trình tự có chữ pseudo và -like trong các trình tự của gen nd4. Chính vì điều này mà có sự khác nhau như bạn Trang nhận thấy. Để lấy trình tự ngoài họ Ba ba, bạn có thể dùng từ khóa là Testudines NOT Trionychidae.
Các anh cho em hỏi: Trong file 'All sequence edited name' (toàn bộ trình tự cần phân tích) của anh Thọ up lên, em thấy với gene nd4, có 69 trình tự trong họ baba, có 286 trình tự thuộc các họ khác trong bộ rùa. Trong file 'Accession list trình tự đại diện các họ khác trong bộ rùa' em thấy có khoảng 423 số hiệu (trình tự), Vậy làm thế nào để có được các kết quả này ạ?
Em cũng không hiểu lắm về cách lấy cách trình tự ngoài họ baba, các anh chỉ cho em được không ạ?
Mọi người có thể thử với số lượng nhỏ trình tự để xem có khác nhau ở 2 trường hợp không? Tôi cũng muốn biết câu trả lời này. Thói quen của tôi là thường degap trước khi bắt cặp lại cho chắc ăn.
Mình nghĩ là có thể không cần vì sau khi cắt phần thừa của từng nhóm nhỏ các trình tự thì chúng ta còn chạy ClustalW đối với toàn bộ trình tự sau khi cắt. Ở bước chạy lại này tôi nghĩ là việc chúng ta loại bỏ các gap trước đó hay không cũng không ảnh hưởng đến kết quả bắt cặp.
Anh Hiếu, Thọ và Trang cho hỏi: Khi cắt sequence để đưa lại vào clustalw có phải remove các gap trong sequence không? Gap có ảnh hưởng đến kết quả của clustalw không?
@all: đối với các file upload đề nghị nén bằng phần mềm 7zip dưới phần mở rộng .7z trước khi upload lên host. Như thế sẽ giảm thiểu dung lượng của file trung chuyển.
@trình tự protein & domain: chúng ta sẽ thảo luận kỹ hơn về vấn đề này tại Tuần 9. Trong giai đoạn này chúng ta coi việc thay đổi nucleotide ở tất cả các vị trí trên trình tự gene là có giá trị ngang nhau mà đặt nặng (weight) ở các vị trị quan trọng/liên quan đến chức năng.
Mình có tham khảo một cậu bạn có chút ít kinh nghiệm về evolution analysis về so sánh sequence thì được biết cậu ấy làm như sau (với protein sequence). Em nêu ra để Thọ và anh Hiếu có thể tham khảo thêm:
- Trước tiên chọn các functional domain trong gene từ profile [3], sau đó dùng pairwise aligment để cắt từ các trình tự thì nghiệm lấy các functional domain. (Ví các functional domain có thể tham gia translocation mà không có ảnh hưởng nhiều đến function của gene.)
- Sau khi đã cắt các domain đó, ta có thể dùng multiple alignment để xây dựng ma trận khoảng cách giữa các sequence.
@cytb, nếu phân tích trình tự dưới 500bp thì số liệu ko hấp dẫn lắm. Thế nên ta có thể thống nhất là loại bỏ những trình tự ngắn hơn trình tự tiêu bản. Sau khi loại bỏ cần cập nhật lại tại danh sách theo dõi để ta nắm được tình hình chung giữa các nhóm gene.
Đối với gen cytb, 3 trình tự tiêu bản có chiều dài 510 bp nhưng trong số các trình tự thu được có trình tự ngắn nhất là 95 bp. Anh Hiếu có thể xác định giúp trình tự ngắn đến mức nào thì chắc chắn bị loại không ạ?
Nếu có trường hợp trình tự ngắn hơn tiêu bản, mình phải quyết định 1) bỏ trình tự ngắn đó ra khỏi danh sách; 2) cắt toàn bộ trình tự bằng với trình tự ngắn nhất muốn lấy.
Sẽ có những trình tự ngắn hơn trình tự tiêu bản, điều này có ảnh hưởng đến phân tích sau này không ạ?
@Thọ: trước hay là sau khi cắt phần thừa. Nếu đã cắt phần thừa thì tôi áng chừng không quá 3h.
Anh Hiếu hay bạn nào đã chạy ClustalW của khoảng 1000 trình tự của gen cytb trong bộ Testudines chưa ạ, anh Hiếu có thể ước lượng giúp hết khoảng bao lâu không ạ?
@Thọ: Đấy cũng đúng là điều tôi muốn nói.
Ý tôi không phải là bắt cặp riêng lẻ rồi phải cắt nhiều lần, mà ý tôi là tiến hành bắt cặp hàng loạt nhưng chỉ tiến hành bắt cặp trình tự tiêu bản với từng trình tự còn lại, chứ không bắt cặp giữa các trình tự còn lại này với nhau.
Bởi vì mình muốn dùng sức của máy tính thay cho sức mình nên mình dùng cách bắt cặp nhiều trình tự sau đó ta cắt đồng loạt thì nhanh hơn với việc cho bắt cặp riêng lẻ rồi phải cắt nhiều lần.
Tôi nghĩ trong bước bắt cặp để loại trình tự thừa so với trình tự tiêu bản mà dùng ClustalW với một loạt các trình tự thì có thể lãng phí hoạt động của máy tính: ClustalW coi trình tự tiêu bản với các trình tự khác như nhau nên sẽ bắt các trình tự đôi một với nhau. Trong khi để loại bỏ các phần thừa so với trình tự tiêu bản thì chỉ cần bắt cặp trình tự tiêu bản với từng trình tự còn lại. Anh Hiếu và các bạn có biết phần mềm nào có thể làm như vậy không?
@Thọ: tôi cho rằng sau khi loại những trình tự thừa, chúng ta có thể gộp tất cả lại để chạy bắt cặp đồng loạt.
@Thảo: bạn có thể đổi chiều bổ sung trình tự RHG rồi bắt cặp xem có gióng hàng tốt hơn k.
Phần mềm để chạy Clustal giống với BioEdit: Theo hướng dẫn của anh Hiếu tôi đang sử dụng Jalview và đã chạy xong dữ liệu của của trình tự trong họ Trionychidae. Chuyển sang các trình tự đại diện trong bộ Testudines, do số lượng trình tự khá lớn nên có lẽ cần thời gian chạy lâu hơn. Có lẽ phải thực hiện theo hướng dẫn của anh Hiếu là chia nhỏ thành các nhóm có khoảng 100 trình tự (bao gồm trình tự tiêu bản trong mỗi nhóm) để bắt cặp và loại phần thừa. Không biết lúc loại xong phần thừa, đến bước tái bắt cặp thì có được chia nhỏ như vậy không, và nếu không chia nhỏ thì máy tính có thực hiện được không?
Em chưa hiểu E-value, ví dụ em align 2 sequences AJ607405.1 (thứ 2) (Vietnam) và HQ116615.1 (thứ 3) thì được aligment của HQ như sau:
"AACAGCGCAATC-CCGTCACAGA-GTCCTTATCGACGA-CGGGGTTTACGACCTCGATGTTGGATCAGGACATCCTAATGGTGCAACAGCTATTAA-----GGGT-------TCGTTTGTTCAAC-------GATTAAAGTCCTACGTGATCT--GAGTTCAGAC-CGGAGTAATCCAGGTCGGTTTCTATCT----ATAATTTAATCTTTTCC-AGTACGAAAGGACCGAAAAGA------AAA-----------------GGCCCATATTAA--TAATATGCCTTAAACTTATA--TTAGT-GAA----------------------TATAACTGAACTA----------ACAATAAGAACA----TACCG"
Anh thấy thế có sai quá không ạ?
anh ko quen nhìn qua score value, em đưa ra E-value được k? Ngoài ra em thử reverse complement các trình tự vn rồi align lại xem kết quả có được cải thiện không. Lưu ý DNA là sợi kép, có người submit trình tự sợi nhưng cũng có người submit sợi - nên mình cần phải đổi chiều theo nguyền tắc bổ sung A => G, C => T và ngược lại.
local-global là hợp lý hơn cả nhưng score ghi được rất thấp: Trong trường hợp 16S của VN với 16S toàn thể score với sáu trong 31 sequences 16S như sau: "723.3853 731.2664 -916.0521 -916.0521 -916.0521 -924.4365..." . Nhìn bằng mắt trình từ thứ 3 "HQ116615.1.Pelodiscus.parviformis.003.16SrRNA.p" đã dài hơn đáng kể.
Em làm gần được với lệnh sau [4] nhưng ta nên dùng option local-global, hay local only?
Ở BioEdit/ClustalW ko có trị số này. Thử dùng giá trị default xem kết quả ntn rối tính tiếp.
Em hỏi số mismatch cực đại chọn là bao nhiêu được ạ? Trong bioedit có số đó không ạ?
@Thảo: Bởi vì mục đích gióng hàng của mình là để cắt phần thừa nên em dùng cái đó cũng được. Tuy nhiên phải ghi nhớ là cái đó dùng thuật toán MUSCLE chứ ko phải CLUSTAL. Thế nên kết quả gióng sẽ có thể khác với các bạn khác. Cái phầm trước anh nói hình như là JalView.
Hôm trước anh Hiếu bảo Bioedit không cài được thì dùng cái gì thay nhỉ, em quên mất? Em nhìn qua thấy cái này [5]
@loại đoạn trình tự thừa, sau khi chạy xong Clustal (ví dụ trên BioEdit) thì export kết quả ra dưới dạng multiple alignment (đuôi .aln). Sau đó dùng text editor để mở file .aln và cắt đoạn muốn loại, save trình tự lại.
Sau đó có thể dùng BioEdit mở lại file đó để kiểm tra.
Sau khi chạy xong Clustal, tôi vẫn chưa biết làm thế nào để loại bỏ các trình tự thừa. Anh Hiếu hay bạn nào biết xin chỉ giúp ạ?
Tôi đã chạy được toàn bộ khối dữ liệu đó mất 7 tiếng trên máy Pentium Dual-Core T4300 @ 2.1 GHz với 4GB RAM. Lưu ý:
- nên chia nhỏ khối dữ liệu và align nó với trình tự khởi điểm.
- Lưu ý 1 số trình tự ko đúng chiều, phải reverse complement lại trên BioEdit
- Cắt các đoạn trình tự thừa trong từng khối nhỏ
- Sau này gộp các khối nhỏ lại và chạy 1 lần cuối
Bạn thử làm với số ít trình tự từ họ Baba xem máy móc, phần mềm ổn chưa. Sau đó mới chạy file dữ liệu lớn. Tôi đang chạy ClustalW trên BioEdit của gene 16S từ 350 seqs của bộ Testudines. Khi nào xong sẽ thông báo kết quả nhé. Tôi có copy 2 trình tự 16S của RHG vào file đó để so sánh.
Anh Hiếu và các bạn trong lớp đã thử chạy ClustalW chưa ạ, tôi thử mở khoảng 1000 trình tự của gen cytb của các đại diện trong bộ Testudines nhưng chạy ClustalW trong Jalview cả ngày không xong. Nó cứ hiện queuing mà chẳng thấy động tĩnh gì.
Tốt nhất gộp toàn bộ lại để loại bỏ phần trình tự thừa cùng 1 lượt. Trừ phi máy tính ko chịu nổi thì mới phải tách riêng. Lưu ý phải tách riêng 3 bộ gene ra chứ để gộp chung thì ko có cách nào bắt cặp được cả.
Lúc chạy ứng dụng ClustalW thì nên gộp các trình tự gen quan tâm của họ Trionychidae với của các loài đại diện của các họ khác trong bộ Testudines không ạ?
Tôi chạy ClustalW trong Jalview, nó chạy khá lâu (khoảng vài chục phút gì đó với 173 trình tự gen cytb) và mở ra một cửa sổ. Tôi đã lưu lại dưới dạng file .aln, nhưng hiện vẫn chưa biết làm thế nào để loại bỏ các trình tự thừa so với trình tự tiêu bản.
bỏ cả trình tự pseudogene là ND4-like đi cho an toàn, Thọ ah
Trình tự số 11-15 có chữ -like thì sao ạ?
@pseudogene: theo nhu Molecular phylogeny of the critically endangered Indochinese box turtle (Cuora galbinifrons) thì những trình tự này là những bản copy thứ 2 trong loài rùa Cuora. Như vậy chúng ta không sử dụng chúng trong phân tích này.
Đây là tên của những trình tự đã tìm kiếm được từ những tuần trước. Khi chỉnh sửa tên của trình tự tôi thấy có chữ pseudogene, nên nghĩ có thể không phải là trình tự quan tâm.
@trình tự cần lấy: Thọ tìm thấy (xác định) những trình tự này như thế nào?
Nhờ anh Hiếu và các bạn trong lớp xem giúp tên của những trình tự sau có phải là trình tự cần lấy không:
- "AY364632.1| Cuora flavomarginata NADH dehydrogenase subunit 4 (ND4) pseudogene, nuclear pseudogene"
- "EF011417.1| Cuora trifasciata.clo.Ctri2_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
- "EF011418.1| Cuora trifasciata.clo.Ctri4_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
- "EF011419.1| Cuora trifasciata.clo.Ctri5_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
- "EF011420.1| Cuora trifasciata.clo.Ctri8_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
- "EF011421.1| Cuora trifasciata.clo.Ctri9_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
- "EF011422.1| Cuora trifasciata.clo.Ctri11_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
- "EF011423.1| Cuora trifasciata.clo.Ctri15_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
- "EF011424.1| Cuora trifasciata.clo.Ctri17_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
- "EF011425.1| Cuora trifasciata.clo.Ctri18_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
- "HM040931.1| Kachuga dhongoka NADH dehydrogenase subunit 4-like (ND4) gene"
- "HM040933.1| Kachuga tecta NADH dehydrogenase subunit 4-like (ND4) gene"
- "HM040934.1| Batagur kachuga NADH dehydrogenase subunit 4-like (ND4) gene"
- "HM040935.1| Geochelone elegans NADH dehydrogenase subunit 4-like (ND4) gene"
- "HM040936.1| Melanochelys trijuga NADH dehydrogenase subunit 4-like (ND4) gene"
@Thọ: tôi cho rằng bạn có thể tiến hành xử lý đồng loạt.
Danh mục accession number của các trình tự quan tâm đã được mình tải lên. Nếu anh Hiếu và các bạn trong lớp thấy không cần bổ sung thêm gì nữa thì tôi sẽ lấy tất cả về để sửa tên đồng loạt luôn.
Thọ upload các trình tự mới được không, cho hôm nào mình thử với.
Nếu máy cấu hình thấp bạn uncheck các nút khác chỉ để lại Full Multiple alignment (bỏ Calculate NJ tree và Bootstrap NJ tree đừng chọn).
Tôi thử mở 105 trình tự cytb, nhưng sau khi cho chạy với các tùy chọn mặc đinh thì thấy một lúc sau chương trình bị đơ. Đã thử khởi động lại máy và chạy lại nhưng vẫn thế, có lẽ cấu hình của máy không đủ để phân tích?
Không đâu. Sau khi mở phải thì phải select all sequences (Ctrl A) rồi vào Accessory Application > ClustalW aligment. Sau khi chạy xong thì nhớ save file lại dưới dạng format .aln hoặc .fas.
Có phải sau khi mở file đó thì chương trình đã tự động bắt cặp?
Tôi đã mở file fasta bằng phần mềm Bioedit, nhưng không biết để bắt cặp và loại bỏ những trình tự không cần thiết bằng cách nào?
@tính ổn định: tôi nghĩ không kết luận được đơn giản như thế. Phải xác định độ giống (khác) nhau giữa các trình tự.
Điều đó có nghĩa là 16S ổn định hơn trong họ Ba ba, trong khi các hai gene còn lại có vẻ phân tán trong khắp các họ khác?
Qua kết quả ncbi blast này tôi thấy: trong họ Trionychidae, khi tiến hành ncbi blast đã giúp chúng ta thu được thêm khá nhiều trình tự mới mà chúng ta chưa thu được trước đây bằng tìm kiếm theo khóa phân loại:
- Gen cytb: 68 trình tự
- Gen 16SrRNA: 1 trình tự
- Gen nd4: 21 trình tự
Thọ và Thảo có nhận xét hay suy nghĩ gì từ kết quả ncbi blast này?
@ Anh Hiếu: Tôi đã thống kê cụ thể số lượng trình tự thêm vào cùng với khóa phân loại tương ứng ở Dữ liệu DNA hiện có về Rùa:
- Gen cytb: 68 trình tự
- Gen 16S rRNA: 73 trình tự
- Gen nd4: 83 trình tự
Đây là số lượng trình tự thêm vào khi so với các trình tự mà chúng ta thu được của họ Trionychidae lần trước.
@Thọ: số lượng trình tự thêm vào khoảng bao nhiêu so với danh sách cũ?
Nếu vậy thì mình nghĩ nên dùng thẳng accession number cả với các file đã download, và file mới, kết hợp chúng vào một file đưa vào ncbi và không phải lo về việc dùng excel để sort.
Mình đã tiến hành blastn để lấy danh mục accession number của 100 trình tự best hit với mỗi trình tự khởi điểm. Với mỗi gen quan tâm sẽ gộp accesscion number của các trình tự mới lấy được này với các trình tự đã lấy được trước đây. Cái này sẽ sử dụng để lấy trình tự tự NCBI bằng Batch Entrez, hệ thống này nó sẽ tự loại bỏ những accession number trùng nhau. Như vậy kết quả từ Batch Entrez này sẽ bao gồm các trình tự trước đây và tất cả những trình tự mới mà chúng ta cần lấy.
Bước tiếp theo là so sánh với danh mục accession number của những trình tự ban đầu để thu được những trình tự chưa có trước đây. Bước này mình sử dụng các thao tác sort của Excel sau khi copy số accession number của hai danh mục này ra cột của Excel. Bước này làm khá thủ công tuy không mất nhiều thời gian nhưng hơi lằng nhằng, nên nếu có script để thực hiện thì tốt quá. Nhưng có lẽ theo mình thì chưa thực sự cần thiết lắm
mục đích của việc này là 1) ta hoài nghi nguồn gốc DNA liệu có phải lẫn tạp từ nguồn nào đó không?; 2) ta dùng kết quả blast thách thức lại hình thức phân loại mẫu vào họ Ba ba; 3) tìm ra những trình tự liên quan đến mẫu nhưng không được/ chưa được chú giải taxonomy đầy đủ.
Mục đích của ta ko phải là so sánh trình tự mà chỉ so Accession number/GI và taxonomy tương ứng. Từ taxonomy tree của kết quả ncbi blast ta có danh sách những taxon của kết quả, việc cần làm là tìm xem có taxon nào, hoặc trình tự nào mà ta chưa có trong file dữ liệu mà ta đã chuẩn bị trước đây k.
So sánh 1000 trình tự không đơn giản lắm, Thọ cho file dưới dạng sequence để kết hợp, mình thử viết R-script để so sánh? Có cần thiết không?
@Thọ: mục đích của ta là không bỏ sót nên mình cần phải so hết.
Theo anh Hiếu thì cần đối chiếu với các trình tự mà chúng ta lấy của bộ Testudines hay chỉ đối chiếu với họ Trionychidae thôi ạ?
@blast: dùng megablast với tham số mặc định trước. Sau đó hiển thị cây taxonomy của kết quả. Từ đó đối chiếu với danh sách trong bài này.
Tôi nghĩ chúng ta có thể so sánh accession number để biết được trình tự nào chưa có, hoặc chúng ta có thể sử dụng Batch Entrez để lấy trình tự từ danh sách accession number tổng hợp.
@Thọ: Mình chỉ hiểu là blast sẽ giúp tìm các trình tự tương tự với trình tự đưa vào, ví dụ [6]. Ý anh Hiếu chắc là trong số đó sẽ có các trình tự mà trước đây ta chưa có, nên lấy xuống để thêm vào, nhưng làm thế nào để biết là chưa có nhỉ? @Anh Hiếu: Em không hiểu các tham số của blast lắm. Có phải thay đổi gì không ạ?
@khóa phân loại (taxonomy) nghĩa là xác định xem những trình tự tương đồng nhất đó là từ loài sinh vật nào, thuộc chi, họ nào? Có nằm trong những loài mà ta thu thập không?
Thu thập thông tin về khóa phân loại của 100 trình tự best hit... Tôi không hiểu khóa phân loại ở đây cụ thể là gì, bạn nào biết giải thích giúp với?
@GI chức năng giống accession number nhưng chỉ toàn là số (digits) ko có chữ cái. Cái này cũng dùng cho Batch Entrez đc và thân thiện với phần mềm hơn.
@Thọ, file thứ 2 có 1072 trình tự cơ đấy!
Mình cũng nói accession, cái GI có thể là một mã truy cập theo hướng khác hoặc quy định khác thôi. Có accession là OK rồi mà.
Mình không hiểu đã sinh ra số accession number, lại còn có cả số GI nữa để làm gì nhỉ? Cái tên thư viện mà Thảo nói tới cũng chính là accession number hay là số GI?
@Thọ: cái mà tôi nói là accession number của trình tự
Tên số thư viện mà Thảo và anh Hiếu nói tới ở đây là của trình tự hay của loài ạ?
Nếu lấy được danh sách tên số thư viện cần dùng thì có thể download hàng loạt nhờ cung cụ NCBI Batch Entrez
Theo mình hiểu thì để download một data dài mà thông tin tản mạn thì cần phải có một file như vậy. Mình nghĩ Thọ đừng download vội luôn mà chỉ lấy tên thư viện trước, cộng với có thể phần đi sau các thông tin liên quan, để ta dễ control khi bỏ cái này chọn cái khác cũng như track trở lại khi cần kiểm tra thông tin. Cuối cùng file nhận được chỉ nằm ở một file cho gọn nhẹ.
Phần thống kê như mình thực hiện không lấy được tên số thư viện của các loài đã chọn. Nhưng từ danh mục tên loài, tôi nghĩ chúng ta có thể lấy được trình tự của gen quan tâm luôn.
Nếu anh Hiếu đã cho ý kiến lấy tất cả các trình tự của 69 loài đó thì hôm nay tôi sẽ lấy và tải lên luôn để sau đó chúng ta sẽ sửa tên trình tự.
Mình không có excel trên máy, Thọ cho một file từ excel chỉ gồm tên số thư viện các loài đã chọn được không? Mình có thể dùng file đó để load dữ liệu...
Mình làm hơi thủ công (chắc có cách làm nhanh hơn) theo các bước như sau:
- bước 1: Tìm các trình tự của từng gen quan tâm bằng từ khóa của Organism Name là Testudines NOT Trionychidae kết hợp với từ khóa gen quan tâm.
- bước 2: Trong phần kết quả thu được của mỗi gen, NCBI hiện thị phần thống kê số lượng trình tự trong kết quả tìm kiếm theo hệ thống phân loại (Taxonomic) ở một box bên phải của màn hình. Chọn thống kê theo List thì nó sẽ liệt kê số lượng các trình tự theo loài hoặc dưới loài (nếu có)
- bước 3: Bôi đen phần thống kê này rồi copy sang Excel, khi paste thì ta chọn Paste Special và chọn paste Text. Tới bước này thì với mỗi gen ta thu được một cột trong Excel, mà mỗi ô sẽ là tên một loài cùng với số lượng trình tự của gen quan tâm của loài đó đặt trong dấu ngoặc đơn sau tên loài.
- bước 4: Với một số thao tác (Sort,Replace,...) trên Excel thì ta thu được danh mục các loài có đồng thời các trình tự của 3 gen quan tâm.
@Chắc ta dùng cái này: "A SET OF UNIQUE IDENTIFIERS FOR THE DESIRED RECORDS, AND I PREFER TO DOWNLOAD THEM USING A WEB BROWSER", nhưng mình vẫn không biết cách tìm liệt kê của Thọ?
Thọ làm thế nào tìm được cái này thế "Có tất cả 69 loài thuộc bộ Testudines (mà không phải họ Trionychidae) có các trình tự của cả 3 gen: cytb, 16SrRNA, nd4"? Ý mình là từ khóa chọn thế nào nhỉ?
@chọn đại diện: để ko tự làm khó mình vì k biết chọn như thế nào. tôi nghĩ chúng ta lấy tất cả các loài có trình tự của cả 3 gene. Số lượng các nhiều đại diện thì cây phân loại càng nhiều thông tin.
@thứ tự: không phải sắp xếp trình tự theo thứ tự nào cả.
Tôi vẫn đang chờ ý kiến của các bạn trong lớp về việc thống nhất lấy loài nào làm đại diện cho các họ trong bộ Testudines. Các bạn xem dự kiến các loài sẽ lấy mà tôi đưa ra rồi cho ý kiến sớm để chúng ta bắt đầu lấy về.
Khi lấy các trình tự của các loài đại diện cho các họ khác trong bộ Testudines thì nên sắp xếp theo thứ tự nào ạ (theo thứ tự ABC của tên loài hay theo cây phân loại NCBI).
@Lan: lấy hết chúng về một lượt, không phải chỉ có Lê TB's. Chọn database nucleotide, gõ từ khóa tên loài, và tên gene nữa. Quan sát kết quả một chút vì có thể phải thay đổi thêm bớt từ khóa như search google để có kết quả như mong muốn. So sánh tổng số trình tự với Thọ cho chắc ăn. Tải tất cả các trình tự ấy về một lượt như trong hướng dẫn của youtube (chọn send to file, format và OK)...
@Chọn loài: mình đang nghĩ cách chọn từ khóa sao cho thỏa mãn yêu cầu đặt ra, sao cho mọi người gõ từ khóa vào thì được trình tự chọn; đảm bảo có thể reproduce.
mọi người chỉ giúp em cách lấy trình tự ND4 với ạ. em ko rõ keyword và tên để tìm ra trình tự liên quan như thế nào ạ. Em vào ncbi tìm với từ khóa là Trionychidae thì nó hiện ra các link có tên Nd4, cóp những trình tự đó về thẳng hay phải lấy tên từ 8.Le.TB ạ. em ko hiểu cách làm lắm. nếu có thể ví dụ giúp em ạ. cám ơn ạ .
mọi người chỉ giúp em cách lấy trình tự ND4 với ạ. em ko rõ keyword và tên để tìm ra trình tự liên quan như thế nào ạ. Em vào ncbi tìm với từ khóa là Trionychidae thì nó hiện ra các link có tên Nd4, cóp những trình tự đó về thẳng hay phải lấy tên từ 8.Le.TB ạ. em ko hiểu cách làm lắm. nếu có thể ví dụ giúp em ạ. cám ơn ạ .
@COI: Tôi chỉ note tại đây như là 1 ghi nhớ để sau này phân tích bởi vì như mọi người thấy là trình tự Rafetus swinhoei của 3 gene LTB et al quan tâm trên NCBI. Trình tự COI là nhóm gene được 1 nhóm nghiên cứu khác lựa chọn. @Đối với các đại diện ngoài họ Baba, mình lấy 3 đại diện thuộc 3 chi khác nhau (nếu có thể); nếu ko đủ 3 đại diện thì mình lấy tối đa có thể.
Quan sát phần thống kê trên thấy có một số họ không có đủ 3 đại diện như yêu cầu của anh Hiếu. Tôi không biết việc lấy đủ 3 đại diện cần xử lý thế nào trong trường hợp này? Ngược lại, một số họ lại có một số phân họ. Tôi không biết là có nên lấy 3 đại diện cho mỗi phân họ không? Các bạn trong lớp cho ý kiến thống nhất cần chọn những loài nào làm đại diện cho mỗi họ trong bộ Testudines từ dữ liệu đưa ra ở trên. Sau khi thống nhất chọn được loài nào thì chúng ta sẽ tiến hành down các trình tự này về.
Hình như tôi không thấy yêu cầu tìm thông tin về gen COI trong phần nhiệm vụ của tuần 2. Tôi mới xem qua và biết gen COI cũng là một gen cytochrome của ty thể. Anh Hiếu có thể giải thích một chút tại sao lại cần quan tâm đến cả gen này không?
Hình như tôi không thấy yêu cầu tìm thông tin về gen COI trong phần nhiệm vụ của tuần 2. Tôi mới xem qua và biết gen COI cũng là một gen cytochrome của ty thể. Anh Hiếu có thể giải thích một chút tại sao lại cần quan tâm đến cả gen này không?
a nghĩ thế đã được rồi. Mọi người có thể dùng nó cho các nhiệm vụ của tuần tiếp theo.
Chẳng hạn em e tên vẫn còn dài quá thôi, nếu thế ok rồi thì thôi ạ?
ý thảo là edit thêm cái gì?
@Nếu chúng ta muốn edit thêm thì có thể edit trên file log.html (bằng Word chẳng hạn), sau đó khớp trở lại :-)
đấy là gene khác, do nhóm ở US đọc. Các bạn ghi lại điều này ở đây.
@anh Hiếu: Chỉ có một trình tự của cytob: HQ329787 !
có ai tìm được trình tự từ loài Rafetus swinhoei k?
để biết có làm ăn cẩn thận ko thì chỉ cần đếm số trình tự trong file là được.
chương trình nó sẽ đối xử với tất cả các trình tự như nhau, nó sẽ bắt cặp toàn bộ trình tự để tìm ra những vùng tương đồng. Dựa vào kết quả đó mình có thể cắt bỏ những vùng bên ngoài. Thế nên ko cần ghi những chi tiết như vậy ở tiêu đề trình tự. Vì sau này các trình tự thừa sẽ được lọc bỏ bởi phần mềm.
@Thọ: không cần đâu, mình copy paste ra plain text được rồi... Mà thôi, Thọ cứ up lại cũng được, cho chắc ăn, nhỡ mình làm ăn không cẩn thận...
những trình tự ngoài gene quan tâm còn chưa thêm gene khác thì tảng lờ đi gene thêm vào, chỉ ghi tên gene quan tâm, treat nó như genome ty thể vậy. Sau này các phần mềm sẽ lọc lấy đoạn mình quan tâm thôi.
@anh Hiếu: chương trình cắt có thể nhận diện tự động được sequence là complete genome hay gene đang quan tâm không-tức là mình có phải báo cho chương trình thông tin đó không ạ?
Cảm ơn lời khuyên của Thảo (mình cũng vừa đọc thấy hướng dẫn của anh Hiếu là không nên dùng phần mềm Word để lưu trình tự), mình sẽ chuyển lại plain text như Thảo nói và tải lên lại.
>FM999016.1.Pelodiscus.sp..MTD.TD.5091.cytb.and.p.tRNA-Thr.transfer.RNA-Thr.specimen.voucher.MTD:TD.5091
Mình đã edit thử được cyto b nhưng có một số tên có chứa một vài phần khác nữa...
hic, hai file up lên không fai plain text Thọ ạ :| Thọ edit file nhưng không nên đổi đuôi mở rộng, các phần mềm sẽ không đọc được đâu... Để mình copy patse lại xem...
Mình đã tải lên các file dữ liệu về các trình tự của 3 gen, nhưng mới chỉ hoàn thành các loài của họ Trionychidae. Còn một nhiệm vụ khác là chọn các trình tự các gen này của các đại diện ở họ khác thuộc bộ Testudines, mình sẽ nghĩ cách để hoàn thành sớm và sẽ chuyển cho Thảo xử lý tiếp. Hy vong là Thảo có bộ code tốt để tiết kiệm thời gian xử lý tên của trình tự (chắc nhiều người sẽ cần dùng đến nó vì chức năng replace của Word sẽ không "thông minh" bằng bộ code của Thảo)
Nếu Thọ thấy chỉnh tên dài thì upload file dữ liệu từng gene (cả 3 đi) dạng fasta, tối mình sẽ chỉnh tên trình tự và upload lại các file đã chỉnh tên trình tự cho (nếu nén thì dùng zip chứ đừng dùng rar nhé.)
theo mình thì nếu mình liệt kê đến từng loài thì sẽ tốt hơn bởi vì sau này có thể 3 gene cho ra 3 cây khác nhau mình có điều kiện nhìn lại từng dữ liệu chi tiết hơn.
Tôi và các bạn trong lớp sẽ thực hiện theo hướng dẫn của anh Hiếu. Theo anh Hiếu thì có cần phải liệt kê số trình tự của từng loài không, hay chỉ đến từng chi thôi?
@Thọ: bạn integrate số liệu của 2 gene vào 1 bảng được k? Ví dụ chi Chitra (1,4,x) với số trong ngoặc lần lượt là cytb, 16S RNA và ND4. Như thế số liệu mình dễ nhìn hơn.
@Thọ: có dấu cách ( tên họ nữa) :D
thử với 16S (dấu cách) RNA xem?
Tên đúng của gen 16SrRNA là gì nhỉ? Tại sao tôi tìm kiếm với gen có tên là 16SrRNA lại thu được rất ít trình tự so với 2 gen còn lại? Thảo và các bạn nhóm 3 dùng từ khóa nào để tìm mà lại được nhiều vậy?
Mình thấy cũng tương tự. Nếu Thọ muốn delete một vài từ nữa (mà một số sequence có chung thì tiếp tục dùng gsub('từ muốn xóa','(không có gì)',B), chú ý thứ tự các gsub ảnh hưởng đến nhau, vì vậy cần để ý khi xóa một từ kép (tức là có dấu cách.) gsub hoàn toàn tương đương với replace của words vậy, chỉ là dễ undo hơn thôi :D
Nhờ Thảo nhìn qua tên của các trình tự mình down về ở Tập tin:Cyt b.doc xem có giống với tên trình tự mà Thảo đã down về không để mình thử modify cái code của Thảo cho nhóm 1 xem có được không. Mình để ý thấy một số trình tự có tên dài hơn bình thường. Code của Thảo mà xử lý được cả những tên dài này và bỏ đi những thứ không cần thiết thì hay quá.
Ví dụ mình edit bằng code trên (sửa lại một chút) tại đây: http://tusach.thuvienkhoahoc.com/wiki/Hình:New.sequence.fasta.zip
Code đó dùng để edit tên trình tự thôi chứ chưa làm gì khác đâu, tương đương với replace của MS - Words vậy. Với nhóm của mình dùng 16SrRNA nên đoạn từ "group 3" viết như vậy (với nhóm 3 chỉ cần download và run code thi tên trình tự được edit, mình chưa kiểm tra thêm có thể phải thay đổi nhỏ). Đơn giản mô tả như sau:
Thực hiện đọc file FASTA bằng lệnh readFASTA của biostrings. Đếm số trình tự (nSEQ), lặp một vòng for để xét từng trình tự. Với mỗi trình tự, sao trình tự đó vào SEQ, sao tên của trình tự SEQ vào NAME (một xâu ký tự). Bây giờ ta tiến hành edit name gồm hai bước:
(i) tách xâu ký tự NAME bởi các dấu phân cách '|', tên hiệu của mã thư viện nằm ở dấu phân các thứ 4, lưu vào biến A. Phần thông tin thêm ghi vào biến B. (ii) Xử lý B bằng lệnh gsub(), lệnh này có ba biến vào, dùng để thay ký tự trong một xâu, chẳng hạn B = gsub(';',,B): thay ký tự ';' nằm trong xâu B bởi ký tự rỗng (tương đương với xóa.) Sau cùng viết tên mới bằng cách kết hợp A, B, thay dấu cách bằng dấu chấm cũng bằng lệnh gsub(). Thay tên vào tên của SEQ và thay SEQ vào allSEQ. Hết vòng xuất số liệu ra file.
Code mà Thảo đưa ra có phải để sửa tên của trình tự không. Theo code này thì tên của trình tự ban đầu cần có dạng như thế nào, mỗi trình tự phải lưu vào một file riêng hay lưu tất cả các trình tự vào 1 file có được không?
Hi Thọ, mình nghĩ trong toàn bộ số đó chỉ có ID thư viện là quan trọng vì sẽ tóm lược tất cả những gì mình muốn biết. Tuy nhiên để keep track thông tin của loài nên ta giữ lại các phần sau cho dễ, đỡ phải lần mò truy cập thôi. Vì thế nên sai khác chút ít ở phần sau, trừ tên loài để nhìn cho rõ ngay từ đầu, sẽ không quan trọng lắm. Nhóm mình chưa upload. Tối mình upload và sẽ xem thử một biện pháp lưu trữ thông tin hiệu quả hơn trong R xem sao, có gì sẽ báo ghi lại... @anh Hiếu: Em cũng chưa cắt gene ra từ genome.
Tôi ghi ở phần quy ước tên là "Tên loài bao gồm cả tên dưới loài nếu có". Nhưng trước mắt thì chỉ cần lấy thông tin mà nó có trên file fasta thôi. Sau này đã xử lý trình tự tốt rồi thì làm lại bước annotation với thông tin chi tiết hơn cũng được.
@Thảo: Thảo upload trình tự về 16SrRNA mà bạn đã làm xong lên để mọi người tham khảo.
Một số trình tự tôi thấy có cả tên của phân loài, tên isolate, tôi không biết là chúng ta nên giữ lại hay nên bỏ. Theo như hướng dẫn của anh Hiếu thì chắc chỉ giữ lại tên loài, tên gen, mã thư viện, còn lại thì bỏ tất phải không ạ?
Tôi được biết qua phần tổng kết của anh Hiếu là nhóm 3 đã hoàn thành thu thập dữ liệu các trình tự của 16SrRNA của họ Ba ba. Tôi muốn nhìn xem kết quả được trình bày như thế nào để học tập, nhưng chưa tìm được. Các bạn nhóm 3 có thể chỉ giúp là các bạn đã trình bày kết quả này tại chỗ nào được không?
Đúng rồi. Bởi vì bất kể mình download trình tự về dài như thế nào, sau này mình dùng phần mềm bắt cặp nó với gene mình quan tâm, và cắt bỏ các phần thừa đi. Thế nên ko cần thông tin thêm khi mình đã có mã thư viện rồi, tra cứu lại lúc nào cũng dễ dàng.
genome ở đây là genome của ty thể (trong cụm từ mitochondrial genome), chứ không phải genome của nhân tế bào. Nếu theo anh Hiếu là không cần quan tâm đến trình tự có phải là toàn bộ gen hay không thì cái chữ .m với .g có thể bỏ luôn để đỡ dài. Như vậy có được không ạ?
thực ra mình ko quan tâm đến việc gene nguyên vẹn hay toàn bộ; chỉ quan tâm có đoạn gene mình cần hay k và thông về về phân loại là gì thôi.
trong 3 gene đấy có gene nào từ genome đâu?
OK, vậy theo Thọ ta để .m, .g. Mới đầu mình nghĩ thế nhưng nhìn thấy viết tắt nhiều quá. Thọ viết lại qui ước đi.
Để tên của trình tự ngắn lại, tại sao chúng ta không quy ước luôn viết tắt chữ .mitochondrion thành .m, và viết tắt chữ .genome thành .g?
chữ isolate và tên của isolate có giữ lại không ạ, và nếu giữ thì ta nên quy định viết tắt thế nào?
Khi search trong cơ sở dữ liệu về gen quan tâm, nhưng trong phần kết quả có một số lại là toàn bộ genome của ty thể chẳng hạn, thì có down trình tự của toàn bộ genome ty thể đó về không nhỉ?
-
Cứ
down
về
rồi
mình
cắt
lấy
phần
mình
quan
tâm
sau.
Cao Xuân Hiếu (thảo luận) 22:19, 28/3/2011 (ICT)
Trong 8 trình tự được tác giả Lê Trần Bình công bố, một số trình tự thấy có ghi là của Vietnam fresh water turtle, trong khi một số trình tự khác (cũng phân tích từ một cá thể) lại chỉ ghi là của họ Trionychidae + isolate... Tại sao như vậy nhỉ?
Tên chủng là tên của cái gì nhỉ? có phải là tên của "isolate" không nhỉ?
-
Chú
trọng
vào
phần
Description
ở
bên
trong
file
trình
tự
(EMBL
format)
do
tác
giả
chú
thích.
Cái
tiêu
đề
bên
ngoài
có
thể
khác
nhau.
Cao Xuân Hiếu (thảo luận) 22:19, 28/3/2011 (ICT)
Mình mới lấy mấy trình tự của tác giả Lê Trần Bình, thấy số hiệu trình tự có thêm phần ".1" ở đằng sau số hiệu mình đọc thấy trong bài báo. Vậy mình có để cái .1 này vào phần số hiệu trình tự không?
-
Theo
mình
ở
dưới
thì
cứ
giữ
lại
số
.1
đó,
tất
cả
là
.1
hết,
chắc
chỉ
là
ký
hiệu
cho
phiên
bản
thôi.
Phạm Thạch Thảo (thảo luận) 21:50, 28/3/2011 (ICT)
-
OK.
Như
Thảo
nói.
Cao Xuân Hiếu (thảo luận) 22:19, 28/3/2011 (ICT)
Mình nghĩ toàn bộ phần số hiệu của trình tự sau dấu > nên để nguyên, vì khỏi mất công xóa.
-
Một
số
phần
mềm
ko
chịu
được
tiêu
đề
để
dài
quá.
Nên
làm
ngắn
gọn
để
dễ
quản
lý.
Cao Xuân Hiếu (thảo luận) 23:08, 28/3/2011 (ICT)
-
Nếu
mở
bằng
1
text
editor
nào
đấy
rồi
dùng
chức
năng
replace
hợp
lý
thì
cũng
nhanh
thôi,
ko
phải
xóa
tay
mệt
đâu.
Cao Xuân Hiếu (thảo luận) 23:11, 28/3/2011 (ICT)
-
Tôi
thấy
phần
sau
dấu
>
có
kiểu
như
thế
này:
>gi|37956082|gb|AY259550.1|,
trrong
đó
phần
số
giữa
chữ
gi
và
chữ
gb
của
mỗi
trình
tự
là
khác
nhau.
Anh
Hiếu
và
mọi
người
có
cách
gì
xóa
được
phần
số
đó
bằng
chức
năng
replace
không?
Hồ Hữu Thọ (thảo luận) 08:31, 29/3/2011 (ICT)
@ anh Thảo: Tuyệt vời! Cái lợi do anh Hiếu chỉ là hay nhất đấy ạ, sẽ không bị ai gõ đầu hết :D
@ anh Thọ: Em cũng dùng luôn các trình tự ngoài họ baba trong file Testudines NOT Trionychidae (nd4) của anh, cầu trời là anh không sai sót chỗ nào, làm lại nữa chắc chết quá, hic