Thành viên:Cao Xuân Hiếu/Note: Giải trình gene thế hệ mới
Thuật ngữ "next generation sequencing" (NGS) được nói đến với mật độ dày đặc trong các cuộc hội nghị khoa học và trên các công bố hàn lâm trong vài năm gần đây. Công nghệ này thực tế là phương thức giải trình tự đồng thời và lượng lớn các đoạn ngắn nucleotide (Massively parallel signature sequencing, MPSS) để phân biệt với công nghệ giải trình tự đã được ứng dụng rộng rãi, giải trình tự bằng phản ứng giới hạn chuỗi (Chain-termination methods) hay ngắn gọn là kỹ thuật Sanger.
Công nghệ NGS được kỳ vọng là làm giảm giá thành chi phí xác định trình tự so với kỹ thuật Sanger. Tuy nhiên, dường như nó chỉ đáp ứng được trong một số ứng dụng nhất định như giải mã hệ phiên mã (transcriptome) hay xác định đa hình trình tự hệ gene (resequencing). Công nghệ NGS gặp những trở ngại lớn trong việc lắp ráp các đoạn ngắn (dưới 100 nucleotide) liền thành một mạch. Do đó, khi xác định trình tự hệ gene mới (de novo Whole Genome Sequencing, WGS), người ta phải giải mã một lượng nucleotide gấp 100 lần hoặc nhiều hơn số lượng nucleotide của hệ gene quan tâm (loại có kích thước lớn khoảng 1Gb). Đối với kích thước các hệ gene nhỏ như vi khuẩn (=< 10Mb) thì cần lượng dữ liệu ít nhất khoảng 20 lần hệ gene).
Công nghệ của Illumina/Solexa[sửa]
Mô phỏng[sửa]
- Có nhiều nhóm dùng các công cụ phần mềm, cắt ngắn trình tự genome đã biết để demo thuật toán tổ hợp trình tự. Dưới đây gần giống 1 trường hợp giả định thực nghiệm hơn.
- Giả định muốn de novo đọc trình tự genome của 1 loài eukaryote có genome tầm khoảng 100Mbase.
- Hệ thống lựa chọn Illumina HiSeq2000 (cho khoảng 100base / 1 reads)
- Lấy genomic DNA làm PE library 300bp. Đặt chạy 1/2 channel với 2 x 100b. => Cho ra tầm 10 Gbase (~ 100x genome coverage)
- Lấy genomic DNA làm MP library 3kb. Đặt chạy 1/4 channel với 2 x 100b => cho ra tầm 4Gbase. Dùng để hỗ trợ assembly dữ liệu 1.
-
Lấy
whole
mRNA
làm
mRNASEQ,
PE
library
250bp.
Đặt
chạy
1/4
channel
với
2
x
100b
=>
được
4Gbase
dùng
làm
annotation.
-
Assembly
riêng
mRNASEQ
được
khoảng
40k
contigs.
- Dùng Edena tổ hợp các read ở từng chiều riêng, cắt lấy đoạn trình tự chất lượng tốt. Điều chỉnh thông số -t, -m và -d để cho kết quả bao trùm nhiều read nhất có thể
- Nối các contig tạo ra từ Edena ở 2 chiều khác nhau lại bằng CAP3.
- Dùng R tính giá trị N50 và các thông số kỹ thuật của kết quả tổ hợp trình tự
-
Assembly
riêng
mRNASEQ
được
khoảng
40k
contigs.
đang
viết
Map reads by bowtie[sửa]
- tar -vxfz tenfilewgs.fas.gz
- ./bowtie-build tenfilewgs.fas wgs
- ./bowtie --best --strata -k 1 -v 3 -m 1 -f --supress 5,6,7 wgs reads.fasta report.txt --max m1.reads.fasta --un unmap.reads.fasta
- ./bowtie --best -v 3 -m 1 -f --supress 5,6,7 wgs reads.fasta report.txt
Xem thêm[sửa]
- Công nghệ giải mã DNA thế hệ mới dành cho mRNA
- Giới thiệu ngành công nghệ Sinh - Tin học (kỳ 1)
- en:DNA sequencing theory
- en:DNA sequencing
- en:Shotgun sequencing
- en:Massively parallel signature sequencing
- Massively Parallel Signature Sequencing (MPSS)
- Applications of next-generation sequencing Series trên Nature
- Next-generation genomics: an integrative approach
- Sequencing technologies — the next generation
- Assembly algorithms for next-generation sequencing data
- The challenges of sequencing by synthesis
- Next-Generation DNA Sequencing Methods
- The Next Generation Becomes the Now Generation
- Next-Generation Sequencing Techniques for Eukaryotic Microorganisms: Sequencing-Based Solutions to Biological Problems
- en:Paired-end Tags
- Multiplex parallel pair-end-ditag sequencing approaches in system biology
- Next-generation DNA sequencing of paired-end tags (PET) for transcriptome and genome analyses
Thuật toán
Vấn đề
Công cụ
- BioPython convert sang FASTAQ format
- FastQC kiểm định chất lượng
- SeqMonk assembly NGS for RNA-Seq
- MIRA assembly NGS de nove WGS
- Bowtie, an ultrafast, memory-efficient short read aligner. Refer to Trần Xuân Trường
- SSPACE dựng scaffold từ contig có sử dụng Bowtie và SSAKE
Conferences
- RNA-Sequencing Applications in Cancer Research: From fastq to differential gene expression, splicing and mutational analysis 12/04/2011 17h (GMT+2)