宏基因组实战9. 组装assembly和分箱bin结果可视化—Anvi'o

前情提要

如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章

使用Anvi'o工具箱分析宏基因组

https://2017-cicese-metagenomics.readthedocs.io/en/latest/anvio.html

我们将使用Anvi'o可视化组装结果。Anvi'o是一款非常强大,且可扩展的工具箱,主要用于泛基因组分析,也同样适用于宏基因组分析。这个课题组同时每年还会开办一系列精彩的在线教程,就包括宏基因组分析。同时他们还定期举办线下培训班介绍此软件的使用。

今天我们将此软件应用于本教程的宏基因组数据上。

本教程的主要目标:

  • 安装anvi'o
  • 熟悉anvi'o的工作流程
  • 使用anvi'o可视化组装结果
  • 熟悉anvi'o工作界面
  • 使用anvi'o对分箱结果进行精选和可视化

安装anvi'o及相关程序

使用 Anaconda安装相关程序。如果你安装过conda请跳过。

wd=~/test/metagenome17/
cd $wd
wget https://repo.continuum.io/archive/Anaconda3-4.4.0-Linux-x86_64.sh
bash Anaconda3-4.4.0-Linux-x86_64.sh
# 当访问是否添加环境变量 `$PATH`  `.bashrc`,你需要同意输入 yes
source ~/.bashrc

以后可以使用conda安装相关程序,这可以提高安装成功的概率,并解决大部分版本依赖关系,并创建虚拟环境不影响系统的其它软件版本正常使用。

接下来创建anvio工作虚拟环境

conda create -n anvio232 -c bioconda -c conda-forge gsl anvio=2.3.2
source activate anvio232

# 想要退出工作环境可执行,目前不要执行
source deactivate anvio232

Anvi'o安装成功后,需要再次检查是否正常工作。运行程序自带测试数据

anvi-self-test --suite mini

此程序运行会产生图形界面环境,使用浏览器访问电脑IP:8080 即可

安装其它使用到的软件

wget https://downloads.sourceforge.net/project/bowtie-bio/bowtie2/2.3.2/bowtie2-2.3.2-linux-x86_64.zip
unzip bowtie2-2.3.2-linux-x86_64.zip

echo 'export PATH=~/test/metagenome17/bowtie2-2.3.2:$PATH' >> ~/.bashrc
source ~/.bashrc
sudo apt-get -y install samtools

软件全部完成,开始工作。

生成Anvi'o格式

Anvi'o输入文件需要原始数据和拼接结果

mkdir $wd/anvio-work
cd $wd/anvio-work

# 下载,无法连接请翻墙
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948.abundtrim.subset.pe.fq.gz
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249.abundtrim.subset.pe.fq.gz
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/subset_assembly.fa.gz

# 解压
for file in *gz
    do
    gunzip $file
done

转换格式

anvi-script-reformat-fasta subset_assembly.fa -o anvio-contigs.fa --min-len 2000 --simplify-names --report name_conversions.txt

结果报告显示如下:

Input ...............: subset_assembly.fa
Output ..............: anvio-contigs.fa
Minimum length ......: 2,000
Total num contigs ...: 9,276
Total num nucleotides: 12,786,925
Contigs removed .....: 7481 (80.65% of all)
Nucleotides removed .: 4054479 (31.71% of all)
Deflines simplified .: True

看一下文件,与之前发生了什么变化吗?主要是短contig被移除,为了便于展示。

bowtie2序列比对

bowtie2比对序列至拼接结果

source deactivate anvio232
# 建索引
bowtie2-build anvio-contigs.fa anvio-contigs

# 循环比对每个文件
for file in *fq
do
~/test/metagenome17/bowtie2-2.3.2/bowtie2 --threads 8 -x anvio-contigs --interleaved $file -S ${file/.fq/}.sam
samtools view -U 4 -bS ${file/.fq/}.sam > ${file/.fq/}.bam
done

source activate anvio232
# 转换bamanvi格式
for file in *.bam
do
    anvi-init-bam ${file} -o ${file/.bam/}.anvio.bam
done

产生叠连群contig数据库

产生带有注释信息的contig数据库,可以包括物种、功能等。需要做以下三件事:

  1. 将大于20kb的contig分割统计
  2. 使用Prodigal鉴定ORF,并估计单拷贝基因含量 (使用hmmer比对指定数据库 bacteriaarchaea)
  3. 计算kmer频率

产生数据库,预测ORF

anvi-gen-contigs-database -f anvio-contigs.fa -o anvio-contigs.db

hmm搜索和鉴定单拷贝基因

anvi-run-hmms -c anvio-contigs.db --num-threads 28

添加reads覆盖度信息,多线程

for file in *.anvio.bam
do
    anvi-profile -i $file -c anvio-contigs.db -T 28

done

CONCOCT分箱并生成anvi可视化文件

anvi-merge *ANVIO_PROFILE/PROFILE.db -o MERGED-SAMPLES -c anvio-contigs.db --enforce-hierarchical-clustering

展示可视化结果

anvi-interactive -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db

image

筛选和筛选bins

统计bin结果

anvi-summarize -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -o SAMPLES-SUMMARY -C CONCOCT

查看统计结果,在SAMPLES-SUMMARY目录中有网页报告

网页展示结果

anvi-interactive -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -C CONCOCT
# Config Error: HMM's were not run for this contigs database :/

人为挑选bins前,需要备份结果

cp -avr SAMPLES-SUMMARY/ SAMPLES-SUMMARY-ORIGININAL/

人为挑选bin,从bin4开始

anvi-refine -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -b Bin_4 -C CONCOCT

在网页中与结果互动吧!

致谢 Meren 为本教程提供材料!

  • 发表于 2017-11-20 20:28
  • 阅读 ( 6448 )
  • 分类:其他组学

0 条评论

请先 登录 后评论
不写代码的码农
刘永鑫

工程师

64 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章