看教程不够直观,那就看视频吧! >>点击加载视频
前情提要
如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章
使用Anvi'o工具箱分析宏基因组
https://2017-cicese-metagenomics.readthedocs.io/en/latest/anvio.html
我们将使用Anvi'o可视化组装结果。Anvi'o是一款非常强大,且可扩展的工具箱,主要用于泛基因组分析,也同样适用于宏基因组分析。这个课题组同时每年还会开办一系列精彩的在线教程,就包括宏基因组分析。同时他们还定期举办线下培训班介绍此软件的使用。
今天我们将此软件应用于本教程的宏基因组数据上。
本教程的主要目标:
安装anvi'o及相关程序
使用 Anaconda安装相关程序。如果你安装过conda请跳过。
wd=~/test/metagenome17/ cd $wd wget https://repo.continuum.io/archive/Anaconda3-4.4.0-Linux-x86_64.sh bash Anaconda3-4.4.0-Linux-x86_64.sh # 当访问是否添加环境变量 `$PATH` 至 `.bashrc`,你需要同意输入 yes source ~/.bashrc
以后可以使用conda安装相关程序,这可以提高安装成功的概率,并解决大部分版本依赖关系,并创建虚拟环境不影响系统的其它软件版本正常使用。
接下来创建anvio工作虚拟环境
conda create -n anvio232 -c bioconda -c conda-forge gsl anvio=2.3.2 source activate anvio232 # 想要退出工作环境可执行,目前不要执行 source deactivate anvio232
Anvi'o安装成功后,需要再次检查是否正常工作。运行程序自带测试数据
anvi-self-test --suite mini
此程序运行会产生图形界面环境,使用浏览器访问电脑IP:8080 即可
安装其它使用到的软件
wget https://downloads.sourceforge.net/project/bowtie-bio/bowtie2/2.3.2/bowtie2-2.3.2-linux-x86_64.zip unzip bowtie2-2.3.2-linux-x86_64.zip echo 'export PATH=~/test/metagenome17/bowtie2-2.3.2:$PATH' >> ~/.bashrc source ~/.bashrc sudo apt-get -y install samtools
软件全部完成,开始工作。
生成Anvi'o格式
Anvi'o输入文件需要原始数据和拼接结果
mkdir $wd/anvio-work cd $wd/anvio-work # 下载,无法连接请翻墙 curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948.abundtrim.subset.pe.fq.gz curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249.abundtrim.subset.pe.fq.gz curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/subset_assembly.fa.gz # 解压 for file in *gz do gunzip $file done
转换格式
anvi-script-reformat-fasta subset_assembly.fa -o anvio-contigs.fa --min-len 2000 --simplify-names --report name_conversions.txt
结果报告显示如下:
Input ...............: subset_assembly.fa Output ..............: anvio-contigs.fa Minimum length ......: 2,000 Total num contigs ...: 9,276 Total num nucleotides: 12,786,925 Contigs removed .....: 7481 (80.65% of all) Nucleotides removed .: 4054479 (31.71% of all) Deflines simplified .: True
看一下文件,与之前发生了什么变化吗?主要是短contig被移除,为了便于展示。
bowtie2序列比对
bowtie2比对序列至拼接结果
source deactivate anvio232 # 建索引 bowtie2-build anvio-contigs.fa anvio-contigs # 循环比对每个文件 for file in *fq do ~/test/metagenome17/bowtie2-2.3.2/bowtie2 --threads 8 -x anvio-contigs --interleaved $file -S ${file/.fq/}.sam samtools view -U 4 -bS ${file/.fq/}.sam > ${file/.fq/}.bam done source activate anvio232 # 转换bam为anvi格式 for file in *.bam do anvi-init-bam ${file} -o ${file/.bam/}.anvio.bam done
产生叠连群contig数据库
产生带有注释信息的contig数据库,可以包括物种、功能等。需要做以下三件事:
产生数据库,预测ORF
anvi-gen-contigs-database -f anvio-contigs.fa -o anvio-contigs.db
hmm搜索和鉴定单拷贝基因
anvi-run-hmms -c anvio-contigs.db --num-threads 28
添加reads覆盖度信息,多线程
for file in *.anvio.bam do anvi-profile -i $file -c anvio-contigs.db -T 28 done
CONCOCT分箱并生成anvi可视化文件
anvi-merge *ANVIO_PROFILE/PROFILE.db -o MERGED-SAMPLES -c anvio-contigs.db --enforce-hierarchical-clustering
展示可视化结果
anvi-interactive -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db
筛选和筛选bins
统计bin结果
anvi-summarize -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -o SAMPLES-SUMMARY -C CONCOCT
查看统计结果,在SAMPLES-SUMMARY目录中有网页报告
网页展示结果
anvi-interactive -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -C CONCOCT # Config Error: HMM's were not run for this contigs database :/
人为挑选bins前,需要备份结果
cp -avr SAMPLES-SUMMARY/ SAMPLES-SUMMARY-ORIGININAL/
人为挑选bin,从bin4开始
anvi-refine -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -b Bin_4 -C CONCOCT
在网页中与结果互动吧!
致谢 Meren 为本教程提供材料!
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!