Thảo luận:Dữ liệu DNA hiện có về Rùa

Từ Thư viện Khoa học VLOS
Bước tới: chuyển hướng, tìm kiếm

@ anh Thảo: Tuyệt vời! Cái lợi do anh Hiếu chỉ là hay nhất đấy ạ, sẽ không bị ai gõ đầu hết :D

@ anh Thọ: Em cũng dùng luôn các trình tự ngoài họ baba trong file Testudines NOT Trionychidae (nd4) của anh, cầu trời là anh không sai sót chỗ nào, làm lại nữa chắc chết quá, hic

Lê Thị Trang, 04:34, 3/6/2011 (UTC)

@ Thảo: - Bất cứ trình tự nào có chữ pseudo trong tên trình tự đều được loại bỏ trong quá trình sửa tên trình tự. - Theo như phát hiện của Trang thì kết hợp kết quả của tất cả các phương pháp tìm kiếm sẽ thu được nhiều trình tự cần cho phân tích nhất.

Hồ Hữu Thọ, 15:47, 2/6/2011 (UTC)

Làm theo cách đi từ cây phân loài có cái lợi nữa là do anh Hiếu chỉ. Vì vậy sai chỗ nào cả lớp mình cứ anh Hiếu mà bắt đền.

Nhân tiện cho mình hỏi: Với Trio blastn Thọ có thực hiện loại các trình tự có ghi chú "pseudo" không, hay chỉ thực hiện việc loại bỏ đó với Testudine vậy. Đến giờ dữ liệu ngoài Trio mình dùng hoàn toàn dựa trên assession mà Thọ đã upload, vẫn chưa làm được độc lập :D

Phạm Thạch Thảo, 15:00, 2/6/2011 (UTC)

Vâng, em cảm ơn anh nhiều ạ! Giờ thì em đã hiểu hơn, hy vọng mấy câu hỏi "hơi ngớ ngẩn" của em không lúc nào làm cho anh bực mình.hi...

Lê Thị Trang, 08:06, 31/5/2011 (UTC)

Tôi thấy chẳng có phương pháp nào sai cả, kết hợp cả hai lại để lấy được nhiều trình tự hơn có lẽ là cách tốt nhất. Về kết quả 100 blast hit, theo tôi phải xác định trong kết quả đó trình tự nào thuộc phân loại nào để sử dụng đúng theo ý đồ của phân tích. Ở phân tích này chúng ta cần phân định rõ trình tự nào là Trionychidae, trình tự nào không phải Trionychidae nên kết quả blast hit cũng cần được phân chia thành hai nhóm và gộp với kết quả từ tìm kiếm được bằng từ khóa.

Hồ Hữu Thọ, 07:21, 31/5/2011 (UTC)

À vâng, là em sai ạ, chỉ có 48 trình tự theo cách làm của anh. Nhưng anh Thảo chỉ cho em làm theo một cách khác là đi từ cây phân loại [[1]] và ra 60 trình tự. Vậy hai cách này khác nhau thế nào ạ?

Còn câu hỏi em rất thắc mắc mà anh chưa giải đáp cho em là trong 100 blast hits, chúng ta chỉ lấy những trình tự của các loài trong họ baba hay lấy cả ạ?

Lê Thị Trang, 03:57, 31/5/2011 (UTC)

Trang đọc kỹ lại phần cách làm mà tôi ghi lại, đặc biệt là đoạn chọn Field để ghi từ khóa, vì theo cách đó tôi thấy chỉ có 48 trình tự thôi. Có thể cách của Trang là một cách khác hay hơn.

Hồ Hữu Thọ, 01:21, 31/5/2011 (UTC)

Hi, Em vừa làm lại theo cách của anh (nucleotide -> advanced search -> (trionychidae)AND nd4) thì em được kết quả gồm 61 trình tự, hic...

Vậy là trong số 100 blast hits thu được, ta chỉ lấy những trình tự nào thuộc họ baba thôi ạ? Nếu thế thì số 69 có thể hợp lý, và em nghĩ như thế sẽ logic hơn về mặt phương pháp. Nhưng em xem qua cách làm của anh Thảo thì em thấy anh ấy sử dụng cả, hic... Em hy vọng với cả ba gene chúng ta sẽ có sự thống nhất.

@ anh Thảo & anh Hiếu: Nếu các anh thấy em và anh Thọ đang sai cái gì đó buồn cười lắm thì các anh góp ý được không ạ, chứ...đừng ngồi cười nhé, hi...^^

Lê Thị Trang, 21:53, 30/5/2011 (UTC)

May mà Trang lôi ra hỏi mới có cơ hội nhớ lại, cảm ơn Trang. Cái 69 trình tự đấy là tổng hợp từ tìm kiếm từ khóa và blast. Tìm kiếm từ khóa thu được 48 trình tự và những trình tự còn lại thu được từ kết quả blastn. Tìm kiếm theo từ khóa, Trang nên làm theo cách mà tôi vừa dẫn ra. Kết quả blast thu được thì Trang lưu ý là nó có cả các trình tự của họ Trionychidae và của cả họ khác trong bộ Testudines nữa.

Hồ Hữu Thọ, 16:30, 30/5/2011 (UTC)

Hi, có sao đâu ạ, tại anh làm lâu quá rồi mà giờ em mới lôi ra hỏi. Anh cho em thắc mắc thêm chút nữa nhé. Vì cả hai kết quả (trong họ baba và blastn) em đều khác anh, của em là (60 trình tự trong họ) (72 trình tự mới thu được từ blastn), nên hôm nào có thời gian anh thử làm lại cho em so sánh kết quả được không ạ?

Em chưa hình dung ra cách lấy accession number của các trình tự từ các loài ngoài họ mà có cả 3 gene hay cách xóa đi các gene giả. Anh chỉ cho em được không ạ? Giả sử em dùng từ khóa như vừa rồi và lấy được 1285 trình tự, việc tiếp theo em phải làm là gì ạ?


Lê Thị Trang, 15:52, 30/5/2011 (UTC)

Xin lỗi Trang tôi nhớ không chính xác lắm, 69 trình tự có lẽ thu được từ tìm kiếm bằng từ khóa. Tôi mới nhìn qua kết quả đã được đưa lên đây thì thấy ghi là đã blastn với toàn bộ trình tự tiêu bản tương ứng, chứ không phải với một trình tự. Tổng số trình tự mới thu được từ blastn là 83 trình tự. Như vậy tổng số trình tự của gen nd4 của Trionychidae là 69 83 trình tự.

Hồ Hữu Thọ, 15:32, 30/5/2011 (UTC)

Vậy 69 trình tự trong file trionychidae là bao gồm những gì ạ? Vì em tìm trong họ trionychidae thì chỉ cho ra 60 trình tự, còn nếu kết hợp với 100 blast hits nữa thì phải lớn hơn 100 rồi.

Khi làm thì em nhận thấy blastn cả 3 trình tự sẽ cho ra nhiều kết quả hơn blastn 1 trình tự anh ạ (tức là có những kết quả không trùng nhau). Kết hợp 300 blast hits và 60 trình tự của trionychidae, em down được 132 trình tự. Không biết em có đang hiểu sai rồi làm sai cái gì không nữa,:(

Lê Thị Trang, 14:58, 30/5/2011 (UTC)

Theo hướng dẫn của anh Hiếu, tôi chỉ chọn lấy những trình tự ở các loài mà có trình tự của cả 3 gen cytb, nd4 và 16S. Từ khóa của Trang dùng như vậy mình nghĩ là được, nhưng có một cách khác mình đã ghi lại ở đây [[2]] Các trình tự nd4 tìm được của Trionychidae không có các trình tự pseudo hay like. Các trình tự cuối cùng đều được kết hợp phần tìm kiếm bằng từ khóa với kết quả của 100 blast hit. Với mỗi gen thì tôi lấy một trình tự tiêu bản ra để blastn, và tôi cũng để ý thấy trong kết quả 100 blast hit có các trình tự tiêu bản còn lại. Chữ pseudo và like tôi nhận thấy trong phần tên của các trình tự và anh Hiếu nói nên loại những trình tự đó.

Hồ Hữu Thọ, 14:44, 30/5/2011 (UTC)

Anh Thọ ơi, em tìm trình tự ngoài họ baba thì có tới 1285 trình tự cơ ạ, hic, không biết em đang sai chỗ nào? Em dùng từ khóa ((testudines) NOT trionychidae) AND nd4. Anh xem lại rồi chỉ cho em nhé.

Trong file Trionychidae (nd4) của anh có 69 trình tự, file anh chưa bỏ pseudo hay like thì nó có bao nhiêu trình tự ạ? (em hiểu là file trionychidae gồm các trình tự của họ baba và các trình tự của kết quả blastn) Anh blastn cả 3 trình tự hay chỉ một thôi ạ? À, anh loại bỏ gene giả bằng cách nào ạ?

Lê Thị Trang, 09:28, 30/5/2011 (UTC)

Cảm ơn anh Thọ nhiều ạ, hiện giờ trong đầu em đang trống rỗng, bắt đầu từ chiều mai em sẽ hỏi anh ồ ạt, hic...

Lê Thị Trang, 08:06, 29/5/2011 (UTC)

Trong phần mô tả của Tập tin:All sequences Edited name.zip, tôi ghi chú thích là đã loại bỏ các trình tự có chữ pseudo và -like trong các trình tự của gen nd4. Chính vì điều này mà có sự khác nhau như bạn Trang nhận thấy. Để lấy trình tự ngoài họ Ba ba, bạn có thể dùng từ khóa là Testudines NOT Trionychidae.

Hồ Hữu Thọ, 03:26, 27/5/2011 (UTC)

Các anh cho em hỏi: Trong file 'All sequence edited name' (toàn bộ trình tự cần phân tích) của anh Thọ up lên, em thấy với gene nd4, có 69 trình tự trong họ baba, có 286 trình tự thuộc các họ khác trong bộ rùa. Trong file 'Accession list trình tự đại diện các họ khác trong bộ rùa' em thấy có khoảng 423 số hiệu (trình tự), Vậy làm thế nào để có được các kết quả này ạ?

Em cũng không hiểu lắm về cách lấy cách trình tự ngoài họ baba, các anh chỉ cho em được không ạ?

Lê Thị Trang, 22:33, 25/5/2011 (UTC)

Mọi người có thể thử với số lượng nhỏ trình tự để xem có khác nhau ở 2 trường hợp không? Tôi cũng muốn biết câu trả lời này. Thói quen của tôi là thường degap trước khi bắt cặp lại cho chắc ăn.

Cao Xuân Hiếu, 08:49, 1/5/2011 (UTC)
Mình nghĩ là có thể không cần vì sau khi cắt phần thừa của từng nhóm nhỏ các trình tự thì chúng ta còn chạy ClustalW đối với toàn bộ trình tự sau khi cắt. Ở bước chạy lại này tôi nghĩ là việc chúng ta loại bỏ các gap trước đó hay không cũng không ảnh hưởng đến kết quả bắt cặp.
Hồ Hữu Thọ (thảo luận) 15:36, 1/5/2011 (ICT)

Anh Hiếu, Thọ và Trang cho hỏi: Khi cắt sequence để đưa lại vào clustalw có phải remove các gap trong sequence không? Gap có ảnh hưởng đến kết quả của clustalw không?

Phạm Thạch Thảo, 07:53, 1/5/2011 (UTC)

@all: đối với các file upload đề nghị nén bằng phần mềm 7zip dưới phần mở rộng .7z trước khi upload lên host. Như thế sẽ giảm thiểu dung lượng của file trung chuyển.

Cao Xuân Hiếu, 14:26, 28/4/2011 (UTC)

@trình tự protein & domain: chúng ta sẽ thảo luận kỹ hơn về vấn đề này tại Tuần 9. Trong giai đoạn này chúng ta coi việc thay đổi nucleotide ở tất cả các vị trí trên trình tự gene là có giá trị ngang nhau mà đặt nặng (weight) ở các vị trị quan trọng/liên quan đến chức năng.

Cao Xuân Hiếu, 07:35, 20/4/2011 (UTC)

Mình có tham khảo một cậu bạn có chút ít kinh nghiệm về evolution analysis về so sánh sequence thì được biết cậu ấy làm như sau (với protein sequence). Em nêu ra để Thọ và anh Hiếu có thể tham khảo thêm:

  • Trước tiên chọn các functional domain trong gene từ profile [3], sau đó dùng pairwise aligment để cắt từ các trình tự thì nghiệm lấy các functional domain. (Ví các functional domain có thể tham gia translocation mà không có ảnh hưởng nhiều đến function của gene.)
  • Sau khi đã cắt các domain đó, ta có thể dùng multiple alignment để xây dựng ma trận khoảng cách giữa các sequence.
Phạm Thạch Thảo, 07:11, 20/4/2011 (UTC)

@cytb, nếu phân tích trình tự dưới 500bp thì số liệu ko hấp dẫn lắm. Thế nên ta có thể thống nhất là loại bỏ những trình tự ngắn hơn trình tự tiêu bản. Sau khi loại bỏ cần cập nhật lại tại danh sách theo dõi để ta nắm được tình hình chung giữa các nhóm gene.

Cao Xuân Hiếu, 16:10, 17/4/2011 (UTC)
Đối với gen cytb, 3 trình tự tiêu bản có chiều dài 510 bp nhưng trong số các trình tự thu được có trình tự ngắn nhất là 95 bp. Anh Hiếu có thể xác định giúp trình tự ngắn đến mức nào thì chắc chắn bị loại không ạ?
Hồ Hữu Thọ (thảo luận) 22:18, 17/4/2011 (ICT)

Nếu có trường hợp trình tự ngắn hơn tiêu bản, mình phải quyết định 1) bỏ trình tự ngắn đó ra khỏi danh sách; 2) cắt toàn bộ trình tự bằng với trình tự ngắn nhất muốn lấy.

Cao Xuân Hiếu, 13:55, 17/4/2011 (UTC)
Sẽ có những trình tự ngắn hơn trình tự tiêu bản, điều này có ảnh hưởng đến phân tích sau này không ạ?
Hồ Hữu Thọ (thảo luận) 20:50, 17/4/2011 (ICT)

@Thọ: trước hay là sau khi cắt phần thừa. Nếu đã cắt phần thừa thì tôi áng chừng không quá 3h.

Cao Xuân Hiếu, 09:24, 17/4/2011 (UTC)
Anh Hiếu hay bạn nào đã chạy ClustalW của khoảng 1000 trình tự của gen cytb trong bộ Testudines chưa ạ, anh Hiếu có thể ước lượng giúp hết khoảng bao lâu không ạ?
Hồ Hữu Thọ (thảo luận) 16:14, 17/4/2011 (ICT)

@Thọ: Đấy cũng đúng là điều tôi muốn nói.

Cao Xuân Hiếu, 16:31, 16/4/2011 (UTC)
Ý tôi không phải là bắt cặp riêng lẻ rồi phải cắt nhiều lần, mà ý tôi là tiến hành bắt cặp hàng loạt nhưng chỉ tiến hành bắt cặp trình tự tiêu bản với từng trình tự còn lại, chứ không bắt cặp giữa các trình tự còn lại này với nhau.
Hồ Hữu Thọ (thảo luận) 23:08, 16/4/2011 (ICT)

Bởi vì mình muốn dùng sức của máy tính thay cho sức mình nên mình dùng cách bắt cặp nhiều trình tự sau đó ta cắt đồng loạt thì nhanh hơn với việc cho bắt cặp riêng lẻ rồi phải cắt nhiều lần.

Cao Xuân Hiếu, 14:57, 16/4/2011 (UTC)
Tôi nghĩ trong bước bắt cặp để loại trình tự thừa so với trình tự tiêu bản mà dùng ClustalW với một loạt các trình tự thì có thể lãng phí hoạt động của máy tính: ClustalW coi trình tự tiêu bản với các trình tự khác như nhau nên sẽ bắt các trình tự đôi một với nhau. Trong khi để loại bỏ các phần thừa so với trình tự tiêu bản thì chỉ cần bắt cặp trình tự tiêu bản với từng trình tự còn lại. Anh Hiếu và các bạn có biết phần mềm nào có thể làm như vậy không?
Hồ Hữu Thọ (thảo luận) 21:45, 16/4/2011 (ICT)

@Thọ: tôi cho rằng sau khi loại những trình tự thừa, chúng ta có thể gộp tất cả lại để chạy bắt cặp đồng loạt.

@Thảo: bạn có thể đổi chiều bổ sung trình tự RHG rồi bắt cặp xem có gióng hàng tốt hơn k.

Cao Xuân Hiếu, 14:29, 16/4/2011 (UTC)

Phần mềm để chạy Clustal giống với BioEdit: Theo hướng dẫn của anh Hiếu tôi đang sử dụng Jalview và đã chạy xong dữ liệu của của trình tự trong họ Trionychidae. Chuyển sang các trình tự đại diện trong bộ Testudines, do số lượng trình tự khá lớn nên có lẽ cần thời gian chạy lâu hơn. Có lẽ phải thực hiện theo hướng dẫn của anh Hiếu là chia nhỏ thành các nhóm có khoảng 100 trình tự (bao gồm trình tự tiêu bản trong mỗi nhóm) để bắt cặp và loại phần thừa. Không biết lúc loại xong phần thừa, đến bước tái bắt cặp thì có được chia nhỏ như vậy không, và nếu không chia nhỏ thì máy tính có thực hiện được không?

Hồ Hữu Thọ (thảo luận) 21:22, 16/4/2011 (ICT)

Em chưa hiểu E-value, ví dụ em align 2 sequences AJ607405.1 (thứ 2) (Vietnam) và HQ116615.1 (thứ 3) thì được aligment của HQ như sau:

"AACAGCGCAATC-CCGTCACAGA-GTCCTTATCGACGA-CGGGGTTTACGACCTCGATGTTGGATCAGGACATCCTAATGGTGCAACAGCTATTAA-----GGGT-------TCGTTTGTTCAAC-------GATTAAAGTCCTACGTGATCT--GAGTTCAGAC-CGGAGTAATCCAGGTCGGTTTCTATCT----ATAATTTAATCTTTTCC-AGTACGAAAGGACCGAAAAGA------AAA-----------------GGCCCATATTAA--TAATATGCCTTAAACTTATA--TTAGT-GAA----------------------TATAACTGAACTA----------ACAATAAGAACA----TACCG"

Anh thấy thế có sai quá không ạ?

Phạm Thạch Thảo, 13:50, 16/4/2011 (UTC)

anh ko quen nhìn qua score value, em đưa ra E-value được k? Ngoài ra em thử reverse complement các trình tự vn rồi align lại xem kết quả có được cải thiện không. Lưu ý DNA là sợi kép, có người submit trình tự sợi nhưng cũng có người submit sợi - nên mình cần phải đổi chiều theo nguyền tắc bổ sung A => G, C => T và ngược lại.

Cao Xuân Hiếu, 11:27, 16/4/2011 (UTC)

local-global là hợp lý hơn cả nhưng score ghi được rất thấp: Trong trường hợp 16S của VN với 16S toàn thể score với sáu trong 31 sequences 16S như sau: "723.3853 731.2664 -916.0521 -916.0521 -916.0521 -924.4365..." . Nhìn bằng mắt trình từ thứ 3 "HQ116615.1.Pelodiscus.parviformis.003.16SrRNA.p" đã dài hơn đáng kể.

Phạm Thạch Thảo, 10:46, 16/4/2011 (UTC)

Em làm gần được với lệnh sau [4] nhưng ta nên dùng option local-global, hay local only?

Phạm Thạch Thảo, 10:38, 16/4/2011 (UTC)

Ở BioEdit/ClustalW ko có trị số này. Thử dùng giá trị default xem kết quả ntn rối tính tiếp.

Cao Xuân Hiếu, 09:44, 16/4/2011 (UTC)

Em hỏi số mismatch cực đại chọn là bao nhiêu được ạ? Trong bioedit có số đó không ạ?

Phạm Thạch Thảo, 09:36, 16/4/2011 (UTC)

@Thảo: Bởi vì mục đích gióng hàng của mình là để cắt phần thừa nên em dùng cái đó cũng được. Tuy nhiên phải ghi nhớ là cái đó dùng thuật toán MUSCLE chứ ko phải CLUSTAL. Thế nên kết quả gióng sẽ có thể khác với các bạn khác. Cái phầm trước anh nói hình như là JalView.

Cao Xuân Hiếu, 07:54, 16/4/2011 (UTC)

Hôm trước anh Hiếu bảo Bioedit không cài được thì dùng cái gì thay nhỉ, em quên mất? Em nhìn qua thấy cái này [5]

Phạm Thạch Thảo, 06:45, 16/4/2011 (UTC)

@loại đoạn trình tự thừa, sau khi chạy xong Clustal (ví dụ trên BioEdit) thì export kết quả ra dưới dạng multiple alignment (đuôi .aln). Sau đó dùng text editor để mở file .aln và cắt đoạn muốn loại, save trình tự lại.

Sau đó có thể dùng BioEdit mở lại file đó để kiểm tra.

Cao Xuân Hiếu, 06:40, 16/4/2011 (UTC)
Sau khi chạy xong Clustal, tôi vẫn chưa biết làm thế nào để loại bỏ các trình tự thừa. Anh Hiếu hay bạn nào biết xin chỉ giúp ạ?
Hồ Hữu Thọ (thảo luận) 09:40, 16/4/2011 (ICT)

Tôi đã chạy được toàn bộ khối dữ liệu đó mất 7 tiếng trên máy Pentium Dual-Core T4300 @ 2.1 GHz với 4GB RAM. Lưu ý:

  1. nên chia nhỏ khối dữ liệu và align nó với trình tự khởi điểm.
  2. Lưu ý 1 số trình tự ko đúng chiều, phải reverse complement lại trên BioEdit
  3. Cắt các đoạn trình tự thừa trong từng khối nhỏ
  4. Sau này gộp các khối nhỏ lại và chạy 1 lần cuối


Cao Xuân Hiếu, 05:45, 15/4/2011 (UTC)

Bạn thử làm với số ít trình tự từ họ Baba xem máy móc, phần mềm ổn chưa. Sau đó mới chạy file dữ liệu lớn. Tôi đang chạy ClustalW trên BioEdit của gene 16S từ 350 seqs của bộ Testudines. Khi nào xong sẽ thông báo kết quả nhé. Tôi có copy 2 trình tự 16S của RHG vào file đó để so sánh.

Cao Xuân Hiếu, 12:56, 14/4/2011 (UTC)

Anh Hiếu và các bạn trong lớp đã thử chạy ClustalW chưa ạ, tôi thử mở khoảng 1000 trình tự của gen cytb của các đại diện trong bộ Testudines nhưng chạy ClustalW trong Jalview cả ngày không xong. Nó cứ hiện queuing mà chẳng thấy động tĩnh gì.

Tốt nhất gộp toàn bộ lại để loại bỏ phần trình tự thừa cùng 1 lượt. Trừ phi máy tính ko chịu nổi thì mới phải tách riêng. Lưu ý phải tách riêng 3 bộ gene ra chứ để gộp chung thì ko có cách nào bắt cặp được cả.

Cao Xuân Hiếu, 15:30, 13/4/2011 (UTC)
Lúc chạy ứng dụng ClustalW thì nên gộp các trình tự gen quan tâm của họ Trionychidae với của các loài đại diện của các họ khác trong bộ Testudines không ạ?
Hồ Hữu Thọ (thảo luận) 21:24, 13/4/2011 (ICT)
Tôi chạy ClustalW trong Jalview, nó chạy khá lâu (khoảng vài chục phút gì đó với 173 trình tự gen cytb) và mở ra một cửa sổ. Tôi đã lưu lại dưới dạng file .aln, nhưng hiện vẫn chưa biết làm thế nào để loại bỏ các trình tự thừa so với trình tự tiêu bản.
Hồ Hữu Thọ (thảo luận) 21:22, 13/4/2011 (ICT)

bỏ cả trình tự pseudogene là ND4-like đi cho an toàn, Thọ ah

Cao Xuân Hiếu, 12:54, 13/4/2011 (UTC)

Trình tự số 11-15 có chữ -like thì sao ạ?

Hồ Hữu Thọ (thảo luận) 19:27, 13/4/2011 (ICT)

@pseudogene: theo nhu Molecular phylogeny of the critically endangered Indochinese box turtle (Cuora galbinifrons) thì những trình tự này là những bản copy thứ 2 trong loài rùa Cuora. Như vậy chúng ta không sử dụng chúng trong phân tích này.

Cao Xuân Hiếu, 11:46, 13/4/2011 (UTC)
Đây là tên của những trình tự đã tìm kiếm được từ những tuần trước. Khi chỉnh sửa tên của trình tự tôi thấy có chữ pseudogene, nên nghĩ có thể không phải là trình tự quan tâm.
Hồ Hữu Thọ (thảo luận) 16:58, 13/4/2011 (ICT)

@trình tự cần lấy: Thọ tìm thấy (xác định) những trình tự này như thế nào?

Cao Xuân Hiếu, 09:06, 13/4/2011 (UTC)

Nhờ anh Hiếu và các bạn trong lớp xem giúp tên của những trình tự sau có phải là trình tự cần lấy không:

  1. "AY364632.1| Cuora flavomarginata NADH dehydrogenase subunit 4 (ND4) pseudogene, nuclear pseudogene"
  2. "EF011417.1| Cuora trifasciata.clo.Ctri2_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
  3. "EF011418.1| Cuora trifasciata.clo.Ctri4_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
  4. "EF011419.1| Cuora trifasciata.clo.Ctri5_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
  5. "EF011420.1| Cuora trifasciata.clo.Ctri8_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
  6. "EF011421.1| Cuora trifasciata.clo.Ctri9_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
  7. "EF011422.1| Cuora trifasciata.clo.Ctri11_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
  8. "EF011423.1| Cuora trifasciata.clo.Ctri15_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
  9. "EF011424.1| Cuora trifasciata.clo.Ctri17_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
  10. "EF011425.1| Cuora trifasciata.clo.Ctri18_numt NADH dehydrogenase subunit 4 (ND4) pseudogene; tRNA-His and tRNA-Ser pseudogenes, and tRNA-Leu pseudogene; nuclear copies of genes"
  11. "HM040931.1| Kachuga dhongoka NADH dehydrogenase subunit 4-like (ND4) gene"
  12. "HM040933.1| Kachuga tecta NADH dehydrogenase subunit 4-like (ND4) gene"
  13. "HM040934.1| Batagur kachuga NADH dehydrogenase subunit 4-like (ND4) gene"
  14. "HM040935.1| Geochelone elegans NADH dehydrogenase subunit 4-like (ND4) gene"
  15. "HM040936.1| Melanochelys trijuga NADH dehydrogenase subunit 4-like (ND4) gene"
Hồ Hữu Thọ (thảo luận) 16:02, 13/4/2011 (ICT)

@Thọ: tôi cho rằng bạn có thể tiến hành xử lý đồng loạt.

Cao Xuân Hiếu, 06:33, 13/4/2011 (UTC)
Danh mục accession number của các trình tự quan tâm đã được mình tải lên. Nếu anh Hiếu và các bạn trong lớp thấy không cần bổ sung thêm gì nữa thì tôi sẽ lấy tất cả về để sửa tên đồng loạt luôn.
Hồ Hữu Thọ (thảo luận) 08:31, 13/4/2011 (ICT)

Thọ upload các trình tự mới được không, cho hôm nào mình thử với.

Phạm Thạch Thảo, 15:58, 12/4/2011 (UTC)

Nếu máy cấu hình thấp bạn uncheck các nút khác chỉ để lại Full Multiple alignment (bỏ Calculate NJ tree và Bootstrap NJ tree đừng chọn).

Cao Xuân Hiếu, 15:19, 12/4/2011 (UTC)

Tôi thử mở 105 trình tự cytb, nhưng sau khi cho chạy với các tùy chọn mặc đinh thì thấy một lúc sau chương trình bị đơ. Đã thử khởi động lại máy và chạy lại nhưng vẫn thế, có lẽ cấu hình của máy không đủ để phân tích?


Không đâu. Sau khi mở phải thì phải select all sequences (Ctrl A) rồi vào Accessory Application > ClustalW aligment. Sau khi chạy xong thì nhớ save file lại dưới dạng format .aln hoặc .fas.

Cao Xuân Hiếu, 14:37, 12/4/2011 (UTC)

Có phải sau khi mở file đó thì chương trình đã tự động bắt cặp?

Hồ Hữu Thọ, 14:02, 12/4/2011 (UTC)

Tôi đã mở file fasta bằng phần mềm Bioedit, nhưng không biết để bắt cặp và loại bỏ những trình tự không cần thiết bằng cách nào?

Hồ Hữu Thọ, 14:00, 12/4/2011 (UTC)

@tính ổn định: tôi nghĩ không kết luận được đơn giản như thế. Phải xác định độ giống (khác) nhau giữa các trình tự.

Cao Xuân Hiếu, 13:53, 10/4/2011 (UTC)

Điều đó có nghĩa là 16S ổn định hơn trong họ Ba ba, trong khi các hai gene còn lại có vẻ phân tán trong khắp các họ khác?

Phạm Thạch Thảo, 07:00, 10/4/2011 (UTC)

Qua kết quả ncbi blast này tôi thấy: trong họ Trionychidae, khi tiến hành ncbi blast đã giúp chúng ta thu được thêm khá nhiều trình tự mới mà chúng ta chưa thu được trước đây bằng tìm kiếm theo khóa phân loại:

  1. Gen cytb: 68 trình tự
  2. Gen 16SrRNA: 1 trình tự
  3. Gen nd4: 21 trình tự
Hồ Hữu Thọ (thảo luận) 13:51, 10/4/2011 (ICT)

Thọ và Thảo có nhận xét hay suy nghĩ gì từ kết quả ncbi blast này?

Cao Xuân Hiếu, 06:23, 10/4/2011 (UTC)

@ Anh Hiếu: Tôi đã thống kê cụ thể số lượng trình tự thêm vào cùng với khóa phân loại tương ứng ở Dữ liệu DNA hiện có về Rùa:

  1. Gen cytb: 68 trình tự
  2. Gen 16S rRNA: 73 trình tự
  3. Gen nd4: 83 trình tự
Đây là số lượng trình tự thêm vào khi so với các trình tự mà chúng ta thu được của họ Trionychidae lần trước.
Hồ Hữu Thọ (thảo luận) 13:17, 10/4/2011 (ICT)

@Thọ: số lượng trình tự thêm vào khoảng bao nhiêu so với danh sách cũ?

Cao Xuân Hiếu, 06:07, 10/4/2011 (UTC)

Nếu vậy thì mình nghĩ nên dùng thẳng accession number cả với các file đã download, và file mới, kết hợp chúng vào một file đưa vào ncbi và không phải lo về việc dùng excel để sort.

Phạm Thạch Thảo, 06:07, 10/4/2011 (UTC)

Mình đã tiến hành blastn để lấy danh mục accession number của 100 trình tự best hit với mỗi trình tự khởi điểm. Với mỗi gen quan tâm sẽ gộp accesscion number của các trình tự mới lấy được này với các trình tự đã lấy được trước đây. Cái này sẽ sử dụng để lấy trình tự tự NCBI bằng Batch Entrez, hệ thống này nó sẽ tự loại bỏ những accession number trùng nhau. Như vậy kết quả từ Batch Entrez này sẽ bao gồm các trình tự trước đây và tất cả những trình tự mới mà chúng ta cần lấy.

Bước tiếp theo là so sánh với danh mục accession number của những trình tự ban đầu để thu được những trình tự chưa có trước đây. Bước này mình sử dụng các thao tác sort của Excel sau khi copy số accession number của hai danh mục này ra cột của Excel. Bước này làm khá thủ công tuy không mất nhiều thời gian nhưng hơi lằng nhằng, nên nếu có script để thực hiện thì tốt quá. Nhưng có lẽ theo mình thì chưa thực sự cần thiết lắm
Hồ Hữu Thọ (thảo luận) 13:01, 10/4/2011 (ICT)


mục đích của việc này là 1) ta hoài nghi nguồn gốc DNA liệu có phải lẫn tạp từ nguồn nào đó không?; 2) ta dùng kết quả blast thách thức lại hình thức phân loại mẫu vào họ Ba ba; 3) tìm ra những trình tự liên quan đến mẫu nhưng không được/ chưa được chú giải taxonomy đầy đủ.

Mục đích của ta ko phải là so sánh trình tự mà chỉ so Accession number/GI và taxonomy tương ứng. Từ taxonomy tree của kết quả ncbi blast ta có danh sách những taxon của kết quả, việc cần làm là tìm xem có taxon nào, hoặc trình tự nào mà ta chưa có trong file dữ liệu mà ta đã chuẩn bị trước đây k.

Cao Xuân Hiếu, 05:55, 10/4/2011 (UTC)

So sánh 1000 trình tự không đơn giản lắm, Thọ cho file dưới dạng sequence để kết hợp, mình thử viết R-script để so sánh? Có cần thiết không?

Phạm Thạch Thảo, 05:32, 10/4/2011 (UTC)

@Thọ: mục đích của ta là không bỏ sót nên mình cần phải so hết.

Cao Xuân Hiếu, 05:16, 10/4/2011 (UTC)
Theo anh Hiếu thì cần đối chiếu với các trình tự mà chúng ta lấy của bộ Testudines hay chỉ đối chiếu với họ Trionychidae thôi ạ?
Hồ Hữu Thọ (thảo luận) 07:18, 10/4/2011 (ICT)

@blast: dùng megablast với tham số mặc định trước. Sau đó hiển thị cây taxonomy của kết quả. Từ đó đối chiếu với danh sách trong bài này.

Cao Xuân Hiếu, 18:14, 9/4/2011 (UTC)
Tôi nghĩ chúng ta có thể so sánh accession number để biết được trình tự nào chưa có, hoặc chúng ta có thể sử dụng Batch Entrez để lấy trình tự từ danh sách accession number tổng hợp.
Hồ Hữu Thọ (thảo luận) 22:37, 9/4/2011 (ICT)

@Thọ: Mình chỉ hiểu là blast sẽ giúp tìm các trình tự tương tự với trình tự đưa vào, ví dụ [6]. Ý anh Hiếu chắc là trong số đó sẽ có các trình tự mà trước đây ta chưa có, nên lấy xuống để thêm vào, nhưng làm thế nào để biết là chưa có nhỉ? @Anh Hiếu: Em không hiểu các tham số của blast lắm. Có phải thay đổi gì không ạ?

Phạm Thạch Thảo, 14:33, 9/4/2011 (UTC)

@khóa phân loại (taxonomy) nghĩa là xác định xem những trình tự tương đồng nhất đó là từ loài sinh vật nào, thuộc chi, họ nào? Có nằm trong những loài mà ta thu thập không?

Cao Xuân Hiếu, 12:49, 9/4/2011 (UTC)
Thu thập thông tin về khóa phân loại của 100 trình tự best hit... Tôi không hiểu khóa phân loại ở đây cụ thể là gì, bạn nào biết giải thích giúp với?
Hồ Hữu Thọ (thảo luận) 19:24, 9/4/2011 (ICT)

@GI chức năng giống accession number nhưng chỉ toàn là số (digits) ko có chữ cái. Cái này cũng dùng cho Batch Entrez đc và thân thiện với phần mềm hơn.

Cao Xuân Hiếu, 16:55, 4/4/2011 (UTC)

@Thọ, file thứ 2 có 1072 trình tự cơ đấy!

Phạm Thạch Thảo, 16:20, 4/4/2011 (UTC)

Mình cũng nói accession, cái GI có thể là một mã truy cập theo hướng khác hoặc quy định khác thôi. Có accession là OK rồi mà.

Phạm Thạch Thảo, 14:54, 4/4/2011 (UTC)
Mình không hiểu đã sinh ra số accession number, lại còn có cả số GI nữa để làm gì nhỉ? Cái tên thư viện mà Thảo nói tới cũng chính là accession number hay là số GI?
Hồ Hữu Thọ (thảo luận) 21:43, 4/4/2011 (ICT)

@Thọ: cái mà tôi nói là accession number của trình tự

Cao Xuân Hiếu, 13:44, 4/4/2011 (UTC)
Tên số thư viện mà Thảo và anh Hiếu nói tới ở đây là của trình tự hay của loài ạ?
Hồ Hữu Thọ (thảo luận) 20:42, 4/4/2011 (ICT)

Nếu lấy được danh sách tên số thư viện cần dùng thì có thể download hàng loạt nhờ cung cụ NCBI Batch Entrez

Cao Xuân Hiếu, 04:56, 4/4/2011 (UTC)

Theo mình hiểu thì để download một data dài mà thông tin tản mạn thì cần phải có một file như vậy. Mình nghĩ Thọ đừng download vội luôn mà chỉ lấy tên thư viện trước, cộng với có thể phần đi sau các thông tin liên quan, để ta dễ control khi bỏ cái này chọn cái khác cũng như track trở lại khi cần kiểm tra thông tin. Cuối cùng file nhận được chỉ nằm ở một file cho gọn nhẹ.

Phạm Thạch Thảo, 04:54, 4/4/2011 (UTC)

Phần thống kê như mình thực hiện không lấy được tên số thư viện của các loài đã chọn. Nhưng từ danh mục tên loài, tôi nghĩ chúng ta có thể lấy được trình tự của gen quan tâm luôn.

Nếu anh Hiếu đã cho ý kiến lấy tất cả các trình tự của 69 loài đó thì hôm nay tôi sẽ lấy và tải lên luôn để sau đó chúng ta sẽ sửa tên trình tự.
Hồ Hữu Thọ (thảo luận) 11:37, 4/4/2011 (ICT)

Mình không có excel trên máy, Thọ cho một file từ excel chỉ gồm tên số thư viện các loài đã chọn được không? Mình có thể dùng file đó để load dữ liệu...

Phạm Thạch Thảo, 04:15, 4/4/2011 (UTC)

Mình làm hơi thủ công (chắc có cách làm nhanh hơn) theo các bước như sau:

- bước 1: Tìm các trình tự của từng gen quan tâm bằng từ khóa của Organism Name là Testudines NOT Trionychidae kết hợp với từ khóa gen quan tâm.

- bước 2: Trong phần kết quả thu được của mỗi gen, NCBI hiện thị phần thống kê số lượng trình tự trong kết quả tìm kiếm theo hệ thống phân loại (Taxonomic) ở một box bên phải của màn hình. Chọn thống kê theo List thì nó sẽ liệt kê số lượng các trình tự theo loài hoặc dưới loài (nếu có)

- bước 3: Bôi đen phần thống kê này rồi copy sang Excel, khi paste thì ta chọn Paste Special và chọn paste Text. Tới bước này thì với mỗi gen ta thu được một cột trong Excel, mà mỗi ô sẽ là tên một loài cùng với số lượng trình tự của gen quan tâm của loài đó đặt trong dấu ngoặc đơn sau tên loài.

- bước 4: Với một số thao tác (Sort,Replace,...) trên Excel thì ta thu được danh mục các loài có đồng thời các trình tự của 3 gen quan tâm.
Hồ Hữu Thọ (thảo luận) 19:16, 3/4/2011 (ICT)

@Chắc ta dùng cái này: "A SET OF UNIQUE IDENTIFIERS FOR THE DESIRED RECORDS, AND I PREFER TO DOWNLOAD THEM USING A WEB BROWSER", nhưng mình vẫn không biết cách tìm liệt kê của Thọ?

Phạm Thạch Thảo, 09:48, 3/4/2011 (UTC)

Thọ làm thế nào tìm được cái này thế "Có tất cả 69 loài thuộc bộ Testudines (mà không phải họ Trionychidae) có các trình tự của cả 3 gen: cytb, 16SrRNA, nd4"? Ý mình là từ khóa chọn thế nào nhỉ?

Phạm Thạch Thảo, 06:10, 3/4/2011 (UTC)

@chọn đại diện: để ko tự làm khó mình vì k biết chọn như thế nào. tôi nghĩ chúng ta lấy tất cả các loài có trình tự của cả 3 gene. Số lượng các nhiều đại diện thì cây phân loại càng nhiều thông tin.

Cao Xuân Hiếu, 05:20, 3/4/2011 (UTC)

@thứ tự: không phải sắp xếp trình tự theo thứ tự nào cả.

Cao Xuân Hiếu, 05:12, 3/4/2011 (UTC)

Tôi vẫn đang chờ ý kiến của các bạn trong lớp về việc thống nhất lấy loài nào làm đại diện cho các họ trong bộ Testudines. Các bạn xem dự kiến các loài sẽ lấy mà tôi đưa ra rồi cho ý kiến sớm để chúng ta bắt đầu lấy về.

Hồ Hữu Thọ, 02:17, 3/4/2011 (UTC)

Khi lấy các trình tự của các loài đại diện cho các họ khác trong bộ Testudines thì nên sắp xếp theo thứ tự nào ạ (theo thứ tự ABC của tên loài hay theo cây phân loại NCBI).

Hồ Hữu Thọ, 02:13, 3/4/2011 (UTC)

@Lan: lấy hết chúng về một lượt, không phải chỉ có Lê TB's. Chọn database nucleotide, gõ từ khóa tên loài, và tên gene nữa. Quan sát kết quả một chút vì có thể phải thay đổi thêm bớt từ khóa như search google để có kết quả như mong muốn. So sánh tổng số trình tự với Thọ cho chắc ăn. Tải tất cả các trình tự ấy về một lượt như trong hướng dẫn của youtube (chọn send to file, format và OK)...

Phạm Thạch Thảo, 08:19, 2/4/2011 (UTC)

@Chọn loài: mình đang nghĩ cách chọn từ khóa sao cho thỏa mãn yêu cầu đặt ra, sao cho mọi người gõ từ khóa vào thì được trình tự chọn; đảm bảo có thể reproduce.

Phạm Thạch Thảo, 08:13, 2/4/2011 (UTC)

mọi người chỉ giúp em cách lấy trình tự ND4 với ạ. em ko rõ keyword và tên để tìm ra trình tự liên quan như thế nào ạ. Em vào ncbi tìm với từ khóa là Trionychidae thì nó hiện ra các link có tên Nd4, cóp những trình tự đó về thẳng hay phải lấy tên từ 8.Le.TB ạ. em ko hiểu cách làm lắm. nếu có thể ví dụ giúp em ạ. cám ơn ạ .

Khiếu Phương Lan, 07:45, 2/4/2011 (UTC)

mọi người chỉ giúp em cách lấy trình tự ND4 với ạ. em ko rõ keyword và tên để tìm ra trình tự liên quan như thế nào ạ. Em vào ncbi tìm với từ khóa là Trionychidae thì nó hiện ra các link có tên Nd4, cóp những trình tự đó về thẳng hay phải lấy tên từ 8.Le.TB ạ. em ko hiểu cách làm lắm. nếu có thể ví dụ giúp em ạ. cám ơn ạ .

Khiếu Phương Lan, 07:45, 2/4/2011 (UTC)

@COI: Tôi chỉ note tại đây như là 1 ghi nhớ để sau này phân tích bởi vì như mọi người thấy là trình tự Rafetus swinhoei của 3 gene LTB et al quan tâm trên NCBI. Trình tự COI là nhóm gene được 1 nhóm nghiên cứu khác lựa chọn. @Đối với các đại diện ngoài họ Baba, mình lấy 3 đại diện thuộc 3 chi khác nhau (nếu có thể); nếu ko đủ 3 đại diện thì mình lấy tối đa có thể.

Cao Xuân Hiếu, 04:21, 2/4/2011 (UTC)

Quan sát phần thống kê trên thấy có một số họ không có đủ 3 đại diện như yêu cầu của anh Hiếu. Tôi không biết việc lấy đủ 3 đại diện cần xử lý thế nào trong trường hợp này? Ngược lại, một số họ lại có một số phân họ. Tôi không biết là có nên lấy 3 đại diện cho mỗi phân họ không? Các bạn trong lớp cho ý kiến thống nhất cần chọn những loài nào làm đại diện cho mỗi họ trong bộ Testudines từ dữ liệu đưa ra ở trên. Sau khi thống nhất chọn được loài nào thì chúng ta sẽ tiến hành down các trình tự này về.

Hồ Hữu Thọ, 02:14, 2/4/2011 (UTC)

Hình như tôi không thấy yêu cầu tìm thông tin về gen COI trong phần nhiệm vụ của tuần 2. Tôi mới xem qua và biết gen COI cũng là một gen cytochrome của ty thể. Anh Hiếu có thể giải thích một chút tại sao lại cần quan tâm đến cả gen này không?

Hồ Hữu Thọ, 22:37, 1/4/2011 (UTC)

Hình như tôi không thấy yêu cầu tìm thông tin về gen COI trong phần nhiệm vụ của tuần 2. Tôi mới xem qua và biết gen COI cũng là một gen cytochrome của ty thể. Anh Hiếu có thể giải thích một chút tại sao lại cần quan tâm đến cả gen này không?

Hồ Hữu Thọ, 22:37, 1/4/2011 (UTC)

a nghĩ thế đã được rồi. Mọi người có thể dùng nó cho các nhiệm vụ của tuần tiếp theo.

Cao Xuân Hiếu, 18:45, 1/4/2011 (UTC)

Chẳng hạn em e tên vẫn còn dài quá thôi, nếu thế ok rồi thì thôi ạ?

Phạm Thạch Thảo, 18:32, 1/4/2011 (UTC)

ý thảo là edit thêm cái gì?

Cao Xuân Hiếu, 18:26, 1/4/2011 (UTC)

@Nếu chúng ta muốn edit thêm thì có thể edit trên file log.html (bằng Word chẳng hạn), sau đó khớp trở lại :-)

Phạm Thạch Thảo, 18:21, 1/4/2011 (UTC)

đấy là gene khác, do nhóm ở US đọc. Các bạn ghi lại điều này ở đây.

Cao Xuân Hiếu, 18:14, 1/4/2011 (UTC)

@anh Hiếu: Chỉ có một trình tự của cytob: HQ329787 !

Phạm Thạch Thảo, 18:12, 1/4/2011 (UTC)

có ai tìm được trình tự từ loài Rafetus swinhoei k?

Cao Xuân Hiếu, 18:08, 1/4/2011 (UTC)

để biết có làm ăn cẩn thận ko thì chỉ cần đếm số trình tự trong file là được.

Cao Xuân Hiếu, 17:02, 1/4/2011 (UTC)

chương trình nó sẽ đối xử với tất cả các trình tự như nhau, nó sẽ bắt cặp toàn bộ trình tự để tìm ra những vùng tương đồng. Dựa vào kết quả đó mình có thể cắt bỏ những vùng bên ngoài. Thế nên ko cần ghi những chi tiết như vậy ở tiêu đề trình tự. Vì sau này các trình tự thừa sẽ được lọc bỏ bởi phần mềm.

Cao Xuân Hiếu, 17:01, 1/4/2011 (UTC)

@Thọ: không cần đâu, mình copy paste ra plain text được rồi... Mà thôi, Thọ cứ up lại cũng được, cho chắc ăn, nhỡ mình làm ăn không cẩn thận...

Phạm Thạch Thảo, 16:58, 1/4/2011 (UTC)

những trình tự ngoài gene quan tâm còn chưa thêm gene khác thì tảng lờ đi gene thêm vào, chỉ ghi tên gene quan tâm, treat nó như genome ty thể vậy. Sau này các phần mềm sẽ lọc lấy đoạn mình quan tâm thôi.

Cao Xuân Hiếu, 16:57, 1/4/2011 (UTC)

@anh Hiếu: chương trình cắt có thể nhận diện tự động được sequence là complete genome hay gene đang quan tâm không-tức là mình có phải báo cho chương trình thông tin đó không ạ?

Phạm Thạch Thảo, 16:57, 1/4/2011 (UTC)
Cảm ơn lời khuyên của Thảo (mình cũng vừa đọc thấy hướng dẫn của anh Hiếu là không nên dùng phần mềm Word để lưu trình tự), mình sẽ chuyển lại plain text như Thảo nói và tải lên lại.
Hồ Hữu Thọ (thảo luận) 23:54, 1/4/2011 (ICT)

>FM999016.1.Pelodiscus.sp..MTD.TD.5091.cytb.and.p.tRNA-Thr.transfer.RNA-Thr.specimen.voucher.MTD:TD.5091

Mình đã edit thử được cyto b nhưng có một số tên có chứa một vài phần khác nữa...

Phạm Thạch Thảo, 16:47, 1/4/2011 (UTC)

hic, hai file up lên không fai plain text Thọ ạ :| Thọ edit file nhưng không nên đổi đuôi mở rộng, các phần mềm sẽ không đọc được đâu... Để mình copy patse lại xem...

Phạm Thạch Thảo, 16:26, 1/4/2011 (UTC)
Mình đã tải lên các file dữ liệu về các trình tự của 3 gen, nhưng mới chỉ hoàn thành các loài của họ Trionychidae. Còn một nhiệm vụ khác là chọn các trình tự các gen này của các đại diện ở họ khác thuộc bộ Testudines, mình sẽ nghĩ cách để hoàn thành sớm và sẽ chuyển cho Thảo xử lý tiếp. Hy vong là Thảo có bộ code tốt để tiết kiệm thời gian xử lý tên của trình tự (chắc nhiều người sẽ cần dùng đến nó vì chức năng replace của Word sẽ không "thông minh" bằng bộ code của Thảo)
Hồ Hữu Thọ (thảo luận) 19:56, 1/4/2011 (ICT)

Nếu Thọ thấy chỉnh tên dài thì upload file dữ liệu từng gene (cả 3 đi) dạng fasta, tối mình sẽ chỉnh tên trình tự và upload lại các file đã chỉnh tên trình tự cho (nếu nén thì dùng zip chứ đừng dùng rar nhé.)

Phạm Thạch Thảo, 07:13, 1/4/2011 (UTC)

theo mình thì nếu mình liệt kê đến từng loài thì sẽ tốt hơn bởi vì sau này có thể 3 gene cho ra 3 cây khác nhau mình có điều kiện nhìn lại từng dữ liệu chi tiết hơn.

Cao Xuân Hiếu, 07:01, 1/4/2011 (UTC)
Tôi và các bạn trong lớp sẽ thực hiện theo hướng dẫn của anh Hiếu. Theo anh Hiếu thì có cần phải liệt kê số trình tự của từng loài không, hay chỉ đến từng chi thôi?
Hồ Hữu Thọ (thảo luận) 13:52, 1/4/2011 (ICT)


@Thọ: bạn integrate số liệu của 2 gene vào 1 bảng được k? Ví dụ chi Chitra (1,4,x) với số trong ngoặc lần lượt là cytb, 16S RNA và ND4. Như thế số liệu mình dễ nhìn hơn.

Cao Xuân Hiếu, 06:43, 1/4/2011 (UTC)

@Thọ: có dấu cách ( tên họ nữa) :D

Phạm Thạch Thảo, 16:32, 31/3/2011 (UTC)

thử với 16S (dấu cách) RNA xem?

Cao Xuân Hiếu, 15:41, 31/3/2011 (UTC)

Tên đúng của gen 16SrRNA là gì nhỉ? Tại sao tôi tìm kiếm với gen có tên là 16SrRNA lại thu được rất ít trình tự so với 2 gen còn lại? Thảo và các bạn nhóm 3 dùng từ khóa nào để tìm mà lại được nhiều vậy?

Hồ Hữu Thọ, 15:22, 31/3/2011 (UTC)

Mình thấy cũng tương tự. Nếu Thọ muốn delete một vài từ nữa (mà một số sequence có chung thì tiếp tục dùng gsub('từ muốn xóa','(không có gì)',B), chú ý thứ tự các gsub ảnh hưởng đến nhau, vì vậy cần để ý khi xóa một từ kép (tức là có dấu cách.) gsub hoàn toàn tương đương với replace của words vậy, chỉ là dễ undo hơn thôi :D

Phạm Thạch Thảo, 04:12, 30/3/2011 (UTC)
Nhờ Thảo nhìn qua tên của các trình tự mình down về ở Tập tin:Cyt b.doc xem có giống với tên trình tự mà Thảo đã down về không để mình thử modify cái code của Thảo cho nhóm 1 xem có được không. Mình để ý thấy một số trình tự có tên dài hơn bình thường. Code của Thảo mà xử lý được cả những tên dài này và bỏ đi những thứ không cần thiết thì hay quá.
Hồ Hữu Thọ (thảo luận) 01:51, 30/3/2011 (ICT)

Ví dụ mình edit bằng code trên (sửa lại một chút) tại đây: http://tusach.thuvienkhoahoc.com/wiki/Hình:New.sequence.fasta.zip

Phạm Thạch Thảo, 16:04, 29/3/2011 (UTC)

Code đó dùng để edit tên trình tự thôi chứ chưa làm gì khác đâu, tương đương với replace của MS - Words vậy. Với nhóm của mình dùng 16SrRNA nên đoạn từ "group 3" viết như vậy (với nhóm 3 chỉ cần download và run code thi tên trình tự được edit, mình chưa kiểm tra thêm có thể phải thay đổi nhỏ). Đơn giản mô tả như sau:

 Thực hiện đọc file FASTA bằng lệnh readFASTA của biostrings.
 Đếm số trình tự (nSEQ), lặp một vòng for để xét từng trình tự.
 Với mỗi trình tự, sao trình tự đó vào SEQ, sao tên của trình tự SEQ vào NAME (một xâu ký tự).
 Bây giờ ta tiến hành edit name gồm hai bước:

(i) tách xâu ký tự NAME bởi các dấu phân cách '|', tên hiệu của mã thư viện nằm ở dấu phân các thứ 4, lưu vào biến A. Phần thông tin thêm ghi vào biến B. (ii) Xử lý B bằng lệnh gsub(), lệnh này có ba biến vào, dùng để thay ký tự trong một xâu, chẳng hạn B = gsub(';',,B): thay ký tự ';' nằm trong xâu B bởi ký tự rỗng (tương đương với xóa.) Sau cùng viết tên mới bằng cách kết hợp A, B, thay dấu cách bằng dấu chấm cũng bằng lệnh gsub(). Thay tên vào tên của SEQ và thay SEQ vào allSEQ. Hết vòng xuất số liệu ra file.

Phạm Thạch Thảo, 15:34, 29/3/2011 (UTC)

Code mà Thảo đưa ra có phải để sửa tên của trình tự không. Theo code này thì tên của trình tự ban đầu cần có dạng như thế nào, mỗi trình tự phải lưu vào một file riêng hay lưu tất cả các trình tự vào 1 file có được không?

Hồ Hữu Thọ, 13:00, 29/3/2011 (UTC)

Hi Thọ, mình nghĩ trong toàn bộ số đó chỉ có ID thư viện là quan trọng vì sẽ tóm lược tất cả những gì mình muốn biết. Tuy nhiên để keep track thông tin của loài nên ta giữ lại các phần sau cho dễ, đỡ phải lần mò truy cập thôi. Vì thế nên sai khác chút ít ở phần sau, trừ tên loài để nhìn cho rõ ngay từ đầu, sẽ không quan trọng lắm. Nhóm mình chưa upload. Tối mình upload và sẽ xem thử một biện pháp lưu trữ thông tin hiệu quả hơn trong R xem sao, có gì sẽ báo ghi lại... @anh Hiếu: Em cũng chưa cắt gene ra từ genome.

Phạm Thạch Thảo, 07:36, 29/3/2011 (UTC)

Tôi ghi ở phần quy ước tên là "Tên loài bao gồm cả tên dưới loài nếu có". Nhưng trước mắt thì chỉ cần lấy thông tin mà nó có trên file fasta thôi. Sau này đã xử lý trình tự tốt rồi thì làm lại bước annotation với thông tin chi tiết hơn cũng được.

@Thảo: Thảo upload trình tự về 16SrRNA mà bạn đã làm xong lên để mọi người tham khảo.

Cao Xuân Hiếu, 07:18, 29/3/2011 (UTC)

Một số trình tự tôi thấy có cả tên của phân loài, tên isolate, tôi không biết là chúng ta nên giữ lại hay nên bỏ. Theo như hướng dẫn của anh Hiếu thì chắc chỉ giữ lại tên loài, tên gen, mã thư viện, còn lại thì bỏ tất phải không ạ?

Hồ Hữu Thọ, 06:52, 29/3/2011 (UTC)

Tôi được biết qua phần tổng kết của anh Hiếu là nhóm 3 đã hoàn thành thu thập dữ liệu các trình tự của 16SrRNA của họ Ba ba. Tôi muốn nhìn xem kết quả được trình bày như thế nào để học tập, nhưng chưa tìm được. Các bạn nhóm 3 có thể chỉ giúp là các bạn đã trình bày kết quả này tại chỗ nào được không?

Hồ Hữu Thọ, 06:34, 29/3/2011 (UTC)

Đúng rồi. Bởi vì bất kể mình download trình tự về dài như thế nào, sau này mình dùng phần mềm bắt cặp nó với gene mình quan tâm, và cắt bỏ các phần thừa đi. Thế nên ko cần thông tin thêm khi mình đã có mã thư viện rồi, tra cứu lại lúc nào cũng dễ dàng.

Cao Xuân Hiếu, 06:12, 29/3/2011 (UTC)
genome ở đây là genome của ty thể (trong cụm từ mitochondrial genome), chứ không phải genome của nhân tế bào. Nếu theo anh Hiếu là không cần quan tâm đến trình tự có phải là toàn bộ gen hay không thì cái chữ .m với .g có thể bỏ luôn để đỡ dài. Như vậy có được không ạ?
Hồ Hữu Thọ (thảo luận) 13:09, 29/3/2011 (ICT)

thực ra mình ko quan tâm đến việc gene nguyên vẹn hay toàn bộ; chỉ quan tâm có đoạn gene mình cần hay k và thông về về phân loại là gì thôi.

Cao Xuân Hiếu, 06:00, 29/3/2011 (UTC)

trong 3 gene đấy có gene nào từ genome đâu?

Cao Xuân Hiếu, 05:58, 29/3/2011 (UTC)

OK, vậy theo Thọ ta để .m, .g. Mới đầu mình nghĩ thế nhưng nhìn thấy viết tắt nhiều quá. Thọ viết lại qui ước đi.

Phạm Thạch Thảo, 04:27, 29/3/2011 (UTC)

Để tên của trình tự ngắn lại, tại sao chúng ta không quy ước luôn viết tắt chữ .mitochondrion thành .m, và viết tắt chữ .genome thành .g?

Hồ Hữu Thọ, 03:27, 29/3/2011 (UTC)

chữ isolate và tên của isolate có giữ lại không ạ, và nếu giữ thì ta nên quy định viết tắt thế nào?

Hồ Hữu Thọ, 01:35, 29/3/2011 (UTC)
Khi search trong cơ sở dữ liệu về gen quan tâm, nhưng trong phần kết quả có một số lại là toàn bộ genome của ty thể chẳng hạn, thì có down trình tự của toàn bộ genome ty thể đó về không nhỉ?
Hồ Hữu Thọ (thảo luận) 22:08, 28/3/2011 (ICT)
Cứ down về rồi mình cắt lấy phần mình quan tâm sau.
Cao Xuân Hiếu (thảo luận) 22:19, 28/3/2011 (ICT)

Trong 8 trình tự được tác giả Lê Trần Bình công bố, một số trình tự thấy có ghi là của Vietnam fresh water turtle, trong khi một số trình tự khác (cũng phân tích từ một cá thể) lại chỉ ghi là của họ Trionychidae + isolate... Tại sao như vậy nhỉ?
Hồ Hữu Thọ (thảo luận) 21:50, 28/3/2011 (ICT)
Tên chủng là tên của cái gì nhỉ? có phải là tên của "isolate" không nhỉ?
Hồ Hữu Thọ (thảo luận) 21:28, 28/3/2011 (ICT)
Chú trọng vào phần Description ở bên trong file trình tự (EMBL format) do tác giả chú thích. Cái tiêu đề bên ngoài có thể khác nhau.
Cao Xuân Hiếu (thảo luận) 22:19, 28/3/2011 (ICT)

Mình mới lấy mấy trình tự của tác giả Lê Trần Bình, thấy số hiệu trình tự có thêm phần ".1" ở đằng sau số hiệu mình đọc thấy trong bài báo. Vậy mình có để cái .1 này vào phần số hiệu trình tự không?
Hồ Hữu Thọ (thảo luận) 21:25, 28/3/2011 (ICT)
Theo mình ở dưới thì cứ giữ lại số .1 đó, tất cả là .1 hết, chắc chỉ là ký hiệu cho phiên bản thôi.
Phạm Thạch Thảo (thảo luận) 21:50, 28/3/2011 (ICT)
OK. Như Thảo nói.
Cao Xuân Hiếu (thảo luận) 22:19, 28/3/2011 (ICT)

Mình nghĩ toàn bộ phần số hiệu của trình tự sau dấu > nên để nguyên, vì khỏi mất công xóa.
Hồ Hữu Thọ (thảo luận) 23:06, 28/3/2011 (ICT)
Một số phần mềm ko chịu được tiêu đề để dài quá. Nên làm ngắn gọn để dễ quản lý.
Cao Xuân Hiếu (thảo luận) 23:08, 28/3/2011 (ICT)
Nếu mở bằng 1 text editor nào đấy rồi dùng chức năng replace hợp lý thì cũng nhanh thôi, ko phải xóa tay mệt đâu.
Cao Xuân Hiếu (thảo luận) 23:11, 28/3/2011 (ICT)
Tôi thấy phần sau dấu > có kiểu như thế này: >gi|37956082|gb|AY259550.1|, trrong đó phần số giữa chữ gi và chữ gb của mỗi trình tự là khác nhau. Anh Hiếu và mọi người có cách gì xóa được phần số đó bằng chức năng replace không?
Hồ Hữu Thọ (thảo luận) 08:31, 29/3/2011 (ICT)