宏基因组实战4.基因注释Prokka

前情提要如果您在学习本教程中存在困难，可能因为缺少背景知识，建议先阅读本系统前期文章宏基因组分析理论教程微生物组入门圣经+宏基因组分析实操课程1背景知识-Shell入门与本地blast实战2...

前情提要

如果您在学习本教程中存在困难，可能因为缺少背景知识，建议先阅读本系统前期文章

宏基因组分析理论教程
微生物组入门圣经+宏基因组分析实操课程
1背景知识-Shell入门与本地blast实战
2数据质控fastqc, Trimmomatic, MultiQC, khmer
3组装拼接MEGAHIT和评估quast

测试数据

刘博士帮助把测试数据建立了一个百度云同步共享文件夹，有非常多的好处，请读完下文再决定是否下载：

下载被墙的数据；很多数据存在google, amazon的部分服务器国内无法直接下载，而服务器一般科学上网不方便，下载数据困难。大家下载失败的数据请到共享目录中查找；
预下载好的软件、数据库；有很多需要下载安装、注册的软件(在线安装包除外)，其实已经在共享目录了，节约小伙伴申请、下载的时间；
数据同步更新；任何笔记或教程不可避免的有些错误、或不完善的地方，后期通过大家的测试反馈问题，我可以对教程进行改进。共享目录不建议全部下载或转存，因为文件体积非常大，而且还会更新。你转存的只是当前版本的一个备份，就不会再更新了。建议直接在链接中每次逐个下载需要的文件，也对文件有一个认识过程。
方便结果预览和跳过问题步骤；服务器Linux在不同平台和版本下，软件安装和兼容性问题还是很多的，而且用户的权限和经验也会导致某些步骤相关软件无法成功安装(有问题建议选google、再找管理员帮助；想在群里提问或联系作者务必阅读《如何优雅的提问》)。在百度云共享目录中，有每一步的运行结果，读者可以下载查看分析结果，并可基于此结果进一步分析。不要纠结于某一步无法通过，重点是了解整个流程的分析思路。

最后送上本教程使用到的所有文件同步共享文件夹链接：http://pan.baidu.com/s/1hsIjosk 密码：y0tb 。

Prokka注释基因

Annotation with Prokka https://2017-cicese-metagenomics.readthedocs.io/en/latest/prokka_tutorial.html

Prokka简介

细菌基因组、宏基因组的基因注释一直是一个非常复杂的问题，Prokka的出现改变了这一切。

Prokka: rapid prokaryotic genome annotation，快速的原核基因组注释。就是上面的神兽，猜猜是什么动物，但真不是皮卡丘。

Prokka是一个命令行软件工具，可以在一台典型台式机上在约10分钟内充分注释一个细菌基因组草图。它产生标准兼容的输出文件以进行进一步分析或者在基因组浏览器中查看。Prokka是用Perl实现的，在遵循开源GPLv2许可证下可以从 http://www.vicbioinformatics.com/software.prokka.shtml 免费获得。

此软件2014年发表于Bioinformatics，截止2017年11月2日Google学术统计引用1265次，最新版本1.12于2017年3月14日更新，大小360MB。因为它是一个复杂的分析流程，依赖关系众多。

安装程序

# 设置工作目录 wd，用户根据自己的实际情修改
wd=~/test/metagenome17
cd $wd
# 下载prokka
git clone https://github.com/tseemann/prokka.git
# 安装依赖关系
sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl
# 安装perl包XML
sudo bash
export PERL_MM_USE_DEFAULT=1
export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps"
perl -MCPAN -e 'install "XML::Simple"'
exit

添加环境变量和设置数据库

# 添加环境变量
export PATH=$PATH:`pwd`/prokka/bin
# 自动搜索并添加数据库
prokka --setupdb
# 测序数据库
prokka --listdb

Prokka使用Uniprot-DB数据库，可使用–usegenus –genus Enterococcus指定额外的数据库

运行Prokka注释contig

# 建立工作目录
mkdir annotation
cd annotation
# 准备输入文件
ln -fs ../assembly/combined/final.contigs.fa ./
# 一句命令10分钟搞定之前别人半年的工作
prokka final.contigs.fa --outdir prokka_annotation --prefix metagG --metagenome --kingdom Bacteria

就是这么简单，一句命令10分钟搞定之前别人半年的工作。给你输出了你想要的，不想要的各种格式结果。

输出文件说明详见下面链接 https://github.com/tseemann/prokka/blob/master/README.md#output-files

下表我列出各种输出结果格式简介

表1. Prokka 结果说明

.gff	基因注释文件，包括gff和序列，可用igv直接查看
.gbk	Genebank格式，来自gff
.fna	输入contig核酸文件
.faa	翻译CDS的AA序列
.ffn	所有转录本核酸序列
.sqn	用于提交的序列
.fsa	输入序列，但有sqn的描述，用于tbl2asn生成sqn文件
.tbl	特征表，用于tbl2asn生成sqn文件
.err	错误报告
.log	日志
.txt	统计结果
.tsv	所有注释基因特征表格

查看结果

# 进入结果目录
cd prokka_annotation
# 结果总结
cat metagG.txt

organism: Genus species strain
contigs: 7904
bases: 13222363
CDS: 12199
tmRNA: 4
tRNA: 300
repeat_region: 7

上面我们看到结果统计的叠连群(contigs)数量，预测基因(CDS)数量等基本信息。下面看一下预测的基因序列。

预测基因展示：

# 查看序列的基因序列
less -S metagG.fsa

>k141_4 [gcode=11] [organism=Genus species] [strain=strain]
ATCGTTTCCCTGCAGACGTCCACCGAGACGAGGTCCGTGGCTTCCACCAGTGCCCCGAGG
GCTACGATGTTGGCCACCTTTTCGCTGCCAAGTTCAAGCGCCGTGGTATGACACGGCACC
GGCAGCACGATGATATCGGATCTGGGGTCGGGATAATCCAGCAGGTCGGAATTGTAAATC
AGCGCTCCGCCCGGTTTTATGATACCGATGAAT
>k141_6 [gcode=11] [organism=Genus species] [strain=strain]
ACAGAACAACCAGGTGGAAACGTATGGTAATTATTGACACGAACACCCACGCCTTGTATT
ATAAGCGTCGCCCCTTGAAACGGGCGGCGTTTTTCATGCACCTTGACAGAGTTATATAGG
CAGGAGAGTAAGCGGGAGAAGGTAAGAGCGATTTATGGAGAGTTTGATCCTGGCTCAGGA
CGAACGCTGGCGGCGTGCCTAACACATGCAAGTCGAACGGTCTG

结果众多，不再一一列举，下面用到自然会提到并介绍，用不到的我也不懂了，今天就到这里了。

Reference

教程原文 https://2017-cicese-metagenomics.readthedocs.io/en/latest/prokka_tutorial.html
Prokka: rapid prokaryotic genome annotation https://www.ncbi.nlm.nih.gov/pubmed/24642063
Prokka中文摘要 http://www.chinapubmed.net/24642063
Prokka官网 http://www.vicbioinformatics.com/software.prokka.shtml
Seemann T. Prokka: rapid prokaryotic genome annotation. Bioinformatics. 2014 Jul 15;30(14):2068-9. PMID:24642063
官方帮助 https://github.com/tseemann/prokka/blob/master/README.md

发表于 2017-11-02 20:54
阅读 ( 14107 )
分类：其他组学

宏基因组实战4.基因注释Prokka

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »