看教程不够直观,那就看视频吧! >>点击加载视频
前情提要
如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章
测试数据
刘博士帮助把测试数据建立了一个百度云同步共享文件夹,有非常多的好处,请读完下文再决定是否下载:
最后送上本教程使用到的所有文件同步共享文件夹链接:http://pan.baidu.com/s/1hsIjosk 密码:y0tb 。
MEGAHIT
https://2017-cicese-metagenomics.readthedocs.io/en/latest/assemble.html
主页:https://github.com/voutcn/megahit
引文:Dinghua Li, Chi-Man Liu, Ruibang Luo, Kunihiko Sadakane, Tak-Wah Lam; MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph, Bioinformatics, Volume 31, Issue 10, 15 May 2015, Pages 1674–1676, https://doi.org/10.1093/bioinformatics/btv033
下面我们进入工作目录
安装程序
git clone https://github.com/voutcn/megahit.git cd megahit make
curl下载测序数据,或在百度云中下载,或使用在上节中K-mer trim的结果文件
cd ../data curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948.abundtrim.subset.pe.fq.gz curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249.abundtrim.subset.pe.fq.gz
开始组装
cd .. mkdir assembly cd assembly ln -fs ../data/*.subset.pe.fq.gz . ../megahit/megahit --12 SRR1976948.abundtrim.subset.pe.fq.gz,SRR1977249.abundtrim.subset.pe.fq.gz -o combined
测试文件为了方便演示,只取了原数据的一小部分,原作者用15min,我的服务器运行只用了4min。原始数据使用三种主流软件分析,运行所消耗时间、内存比较。
IDBA-UD | 33h 54m | 123.84 |
SPAdes | 16h 2m | 381.79 |
MEGAHIT | 1h 53m | 33.41 |
查看拼接结果
less combined/final.contigs.fa
评估组装结果
https://2017-cicese-metagenomics.readthedocs.io/en/latest/assembly-evaluation.html
安装评估软件quast
cd .. git clone https://github.com/ablab/quast.git -b release_4.5 export PYTHONPATH=$(pwd)/quast/libs/
运行QUEST
cd assembly mkdir quast-evaluation cd quast-evaluation ln -fs ../combined/final.contigs.fa megahit.contigs.fa ../../quast/quast.py megahit.contigs.fa -o megahit-report cat megahit-report/report.txt
下载metaSPAdes结果评估并比较
curl -LO https://osf.io/h29jk/download mv download metaspades.contigs.fa.gz gunzip metaspades.contigs.fa.gz ../../quast/quast.py metaspades.contigs.fa -o metaspades-report cat metaspades-report/report.txt # look at the two reports in parallel paste *report/report.txt
结果如下:
Assembly megahit.contigs metaspades.contigs # contigs (>= 0 bp) 7904 4112 # contigs (>= 1000 bp) 2763 1843 # contigs (>= 5000 bp) 582 583 # contigs (>= 10000 bp) 191 244 # contigs (>= 25000 bp) 18 43 # contigs (>= 50000 bp) 2 17 Total length (>= 0 bp) 13222363 12090326 Total length (>= 1000 bp) 11149439 11320830 Total length (>= 5000 bp) 5893043 7955570 Total length (>= 10000 bp) 3186708 5596677 Total length (>= 25000 bp) 663719 2500084 Total length (>= 50000 bp) 112488 1603525 # contigs 3847 2280 Largest contig 61397 261464 Total length 11895322 11615922 GC (%) 46.29 46.27 N50 4924 9303 N75 2524 3937 L50 594 266 L75 1455 754 # N's per 100 kbp 0.00 0.00
结果N50和N75在metaspades结果更好,如果有计算资源,且不缺时间,推荐使用metaspades。但如果没有上T内存的服务器,项目周期又紧张,直接用metahit出结果。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!