Thành viên:Cao Xuân Hiếu/Note: Giải trình gene thế hệ mới

Từ VLOS
Bước tới: chuyển hướng, tìm kiếm

Thuật ngữ "next generation sequencing" (NGS) được nói đến với mật độ dày đặc trong các cuộc hội nghị khoa học và trên các công bố hàn lâm trong vài năm gần đây. Công nghệ này thực tế là phương thức giải trình tự đồng thời lượng lớn các đoạn ngắn nucleotide (Massively parallel signature sequencing, MPSS) để phân biệt với công nghệ giải trình tự đã được ứng dụng rộng rãi, giải trình tự bằng phản ứng giới hạn chuỗi (Chain-termination methods) hay ngắn gọn là kỹ thuật Sanger.

Công nghệ NGS được kỳ vọng là làm giảm giá thành chi phí xác định trình tự so với kỹ thuật Sanger. Tuy nhiên, dường như nó chỉ đáp ứng được trong một số ứng dụng nhất định như giải mã hệ phiên mã (transcriptome) hay xác định đa hình trình tự hệ gene (resequencing). Công nghệ NGS gặp những trở ngại lớn trong việc lắp ráp các đoạn ngắn (dưới 100 nucleotide) liền thành một mạch. Do đó, khi xác định trình tự hệ gene mới (de novo Whole Genome Sequencing, WGS), người ta phải giải mã một lượng nucleotide gấp 100 lần hoặc nhiều hơn số lượng nucleotide của hệ gene quan tâm (loại có kích thước lớn khoảng 1Gb). Đối với kích thước các hệ gene nhỏ như vi khuẩn (=< 10Mb) thì cần lượng dữ liệu ít nhất khoảng 20 lần hệ gene).


Công nghệ của Illumina/Solexa[sửa]


Mô phỏng[sửa]

  • Có nhiều nhóm dùng các công cụ phần mềm, cắt ngắn trình tự genome đã biết để demo thuật toán tổ hợp trình tự. Dưới đây gần giống 1 trường hợp giả định thực nghiệm hơn.
  • Giả định muốn de novo đọc trình tự genome của 1 loài eukaryote có genome tầm khoảng 100Mbase.
  • Hệ thống lựa chọn Illumina HiSeq2000 (cho khoảng 100base / 1 reads)
  • Lấy genomic DNA làm PE library 300bp. Đặt chạy 1/2 channel với 2 x 100b. => Cho ra tầm 10 Gbase (~ 100x genome coverage)
  • Lấy genomic DNA làm MP library 3kb. Đặt chạy 1/4 channel với 2 x 100b => cho ra tầm 4Gbase. Dùng để hỗ trợ assembly dữ liệu 1.
  • Lấy whole mRNA làm mRNASEQ, PE library 250bp. Đặt chạy 1/4 channel với 2 x 100b => được 4Gbase dùng làm annotation.
    • Assembly riêng mRNASEQ được khoảng 40k contigs.
      • Dùng Edena tổ hợp các read ở từng chiều riêng, cắt lấy đoạn trình tự chất lượng tốt. Điều chỉnh thông số -t, -m và -d để cho kết quả bao trùm nhiều read nhất có thể
      • Nối các contig tạo ra từ Edena ở 2 chiều khác nhau lại bằng CAP3.
      • Dùng R tính giá trị N50 và các thông số kỹ thuật của kết quả tổ hợp trình tự


đang viết

Map reads by bowtie[sửa]

  • tar -vxfz tenfilewgs.fas.gz
  • ./bowtie-build tenfilewgs.fas wgs
  • ./bowtie --best --strata -k 1 -v 3 -m 1 -f --supress 5,6,7 wgs reads.fasta report.txt --max m1.reads.fasta --un unmap.reads.fasta
  • ./bowtie --best -v 3 -m 1 -f --supress 5,6,7 wgs reads.fasta report.txt




Xem thêm[sửa]


Thuật toán

Vấn đề

Công cụ

Conferences