本系统文章叫分析解读,即有详细的扩增子分析流程代码,又有本人对使用参数、备选参数意义的解读,可以让大部分人零基础学习并理解数据分析过程,并可亲自实践在自己的课题上,获得更好、更合理的实验结果。
《扩增子分析解读》系列文章介绍
扩增子分析是目前宏基因组研究中最常用的技术,由于微生物组受环境影响大,实验间重复较差,更需要更多的实验重复和分析技术来保证结果的准确性、可重复性。
本系统文章叫分析解读,即有详细的扩增子分析流程代码,又有本人对使用参数、备选参数意义的解读,可以让大部分人零基础学习并理解数据分析过程,并可亲自实践在自己的课题上,获得更好、更合理的实验结果。
本文采用目前最主流的扩增子测序数据类型HiSeq2500 PE250类型数据为例,结合目前主流方法QIIME+USearch优点组合定制的分析流程。本课程中所需的测序数据、实验设计和课程分析生成的中间文件,均可以直去百度云下载。
链接:http://pan.baidu.com/s/1hs1PXcw 密码:y33d。
学习前必读
- 测序数据:百度云原始链接的数据是随时更新的,请尽量使用前下载链接里的文件。转存入自己的帐号内文件将不再更新,无法修正读者指出的错误反馈。
- 本课程代码的运行,至少需要Linux平台+安装QIIME1.9.1,我之前发布过QIIME1.9.1安装的三种方法如下:
- 虚拟机安装:适合在Windows上学习,但分析效率低。
- Docker安装:Linux上最简单的安装方法,需要管理员帮忙并给你开通部分权限。
- 管理员直接安装:直接安装QIIME1.9.1相关的上百个程序和包,不同环境依赖关系不同,需要极丰富经验,建议管理员安装。
以上三种方法均可点击链接有详细教程,总有一款适合你。
- 本套流程主要依赖QIIME1.9.1。之前发布的QIIME2不是QIIME的升级版,而是完全独立的分析系统,两者没有任何通用的地方,而且现在还不成熟,明年才有稳定版。请读者千万别混淆。不要再犯用QIIME2系统运行本教程扩增子分析流程解读,无法找到相关程序的错误。
- 其它不在QIIME流程中的相关软件,我在教程里提供简单的安装方法,使用前仔细阅读教程操作即可。
扩增子分析流程目录
先看一下扩增子分析的整体流程,从下向上逐层分析。
扩增子分析流程,主要包手下面7部分,共21小节。
- 1质控,实验设计,双端序列合并
查看原始数据的质量,编写合格的实验设计用于分析,双端序列合并为单端的扩增子序列; - 2提取barcode,质控及样品拆分,切除扩增引物
将Barcode序列从序列中拆除,筛选高质量的测序结果并标记文库中每条序列中的样品来源,最后切除扩增时使用的引物; - 3格式转换,去冗余,聚类
转换QIIME生成fasta格式为Usearch要求格式;使用Usearch对序列去冗余并筛选高丰度,极大降低下游计算量和去除噪音;最后使用用Usearch聚类生成OTU,默认会组内自动去除大量嵌合体; - 4去嵌合体,非细菌序列,生成代表性序列和OTU表
本讲详细讲了嵌合体的概念,并使用参考数据库去除嵌合体;学习基于参数数据库筛选细菌序列,这些都是可选的操作,根据实际情况决定是否需要,最终生成高质量的OTU序列作为参考序列; - 5物种注释,OTU表操作
这部分采于不同数据库进行细菌或真菌注释;同时根据实际情况,对OTU表进一步按样品、丰度、物种等条件筛选; - 6进化树,Alpha,Beta多样性
将OTU多序列比对生成进化树,为依赖进化关系的计算方法提供输入文件;再进行多种Alpha和Beta多样性的计算; - 7物种分类统计,筛选进化树和其它
对物种进行分类统计,筛选高丰度结果用于进化树展示,和其它用于R统计分析的结果生成。
写在后面
以上流程,是本人基于多篇高水平文章的解读、同类流程分析流程帮助的阅读和自己理解的产物,不足之处,还请大家多留言讨论或指正。
具体的分析步骤的使用,最重要的是相关项目经验,其次是对课题科学问题的深入理解。自己能想清楚,自然知道如何分析更合理。
大家不要迷信流程一次可以分析出想要的结果,好的结果一般都是经过不断思考,不断优化和改进分析参数和方法得出的。发表前修改流程重新计算30次不算多。
这部分大家学会了,可以基于以上流程生成的文本信息。采用R语言进一步统计分析,并绘图各种出版级的图片。我将会从下周起开始发布,第一季扩增子绘图有8种常用图型的绘图,及相关的统计方法,与扩增子图表解读的顺序相对应哦!
希望本课程对大家有帮助!!!
想了解更多16S/ITS/18S扩增子、宏基因组、宏转录组文献阅读和分析相关文章,快关注“宏基因组”公众号,干货第一时间推送。