Nature:地球微生物组计划首发成果

Thompson LR, Sanders JG, McDonald D, Amir A, Ladau J,Locey KJ et al (2017). A communal catalogue reveals Earth’s multiscalemicrobial diversity. Nature. 本文今年11月1日在线发表,23...

Thompson LR, Sanders JG, McDonald D, Amir A, Ladau J,Locey KJ et al (2017). A communal catalogue reveals Earth’s multiscalemicrobial diversity. Nature.

本文今年11月1日在线发表,23日正式出版,翻译导读转载自"土壤微生物生态课题组"公众号,己获授权。
原文链接:https://www.nature.com/articles/nature24621
全文PDF: https://www.nature.com/articles/nature24621.pdf
翻译原文:http://mp.weixin.qq.com/s/dAyP0dHxcAdcXaaKoak7Hg

文章简介:

我们对微生物世界的重要性和多样性的认识日益增强,然而对它们的基本结构却认知有限。近年来,基因测序领域取得了一系列新进展。但由于缺乏标准化的分析方法,常用分析框架又存在诸多缺陷,使微生物组的研究受到了一定限制,进而制约了人们对环境微生物基本结构的认知与发展。本文作者对地球微生物组计划(EMP)中数百名研究人员收集的微生物群落样本进行了元分析。相应的说明及新的基于精确序列而非OTU聚类的分析方法,将增强多项研究中对于细菌和古菌的核糖体基因序列的分析,并将多样性的探索推向前所未有的规模。其结果为进一步深化微生物组研究作出了有益尝试:一是建立了环境微生物基因序列参考数据库,为深入研究未知环境的微生物组构成提供了数据基础和参考依据; 二是建立了微生物基因数据框架,为优化完善地球微生物多样性的描述模式做出了积极探索。

方法介绍:

1.样品收集

EMP向全球科学界征集环境样本和相关数据,跨越不同的环境,不同空间、时间和物理化学共变。来自97个独立研究的27751个样本代表了不同的环境类型(图a)、地理位置(图b)和化学反应。所有样品进行了DNA提取和测序,并对在整个数据库的细菌和古菌部分进行了分析。 image图1. 环境类型和样品来源。 a. 地球微生物组计划本源(EMPO)分为三级;从低到高分别为微生物环境(level3)、动植物和土盐分(level2)、自由生物与宿主相关(level1)。共使用23828个高质量样品,详细方法见网址:http://www.earthmicrobiome.org/protocolsand-standards/empo . b. 全球范围的样品来源,来自7大洲的43个国家,21种生态群落,92种有特点的环境和17个环境。

2.DNA提取,PCR扩增,测序和序列预处理

1).DNA 提取使用 MO BIO PowerSoil DNA extraction kit试剂盒。

2).PCR扩增使用16SrRNA V4区域上的配对引物的515F-806R。

3).测序使用Illumina HiSeq或MiSeq测序平台。

4).测序所得数据使用QIIME 1.9.1 script split_libraries_fastq.py拆分序列并以默认参数进行质量控制随后生成FASTA序列文件。

3.序列标记、OTU筛选以及群落分析方法

考虑到与植物相关的样本以及无宿主影响的样本中,三分之一及以上的序列不能与现有的rRNA数据库匹配,该研究中使用了一种无需参考序列的方法,Deblur,来去除错误的序列并提供了单核酸精度上的sOTU(sub-OTU),该文章中称为“标记序列”(tag sequence)。由于早期EMP计划中的测序长度为90bp,为了将不同时期的序列结果统一起来,进行比较,该研究将所有的序列都切除到了90bp,相应的结果也辅助说明了90bp,100bp和150bp等不同长度不影响研究结果。在与参考数据库(Greengenes 13.8 和Silva 128)的全长序列进行比对时,使用VSEARCH工具来全局比对,并要求100%相似性。

对于90bp的Deblur结果,每个样本均随机抽取了5000个观测到的序列进行分析微生物群落的alpha多样性(observed_otus, shannon, chao1, faith_pd)和beta多样性(基于UniFrac距离矩阵,进行PCoA分析)。

16S rRNA基因拷贝数的计算:基于PICRUSt 1.1.0的命令行脚本“normalize_by_copy_number.py”,将每一个OTU的丰度除以相应推测出的16S rRNA基因的拷贝数。

随机森林的方法对样本进行分类分析:针对Deblur 90 bp 结果中2000个样本,使用随机森林分类树的方法,将不同环境下的样本划分至相应的环境标签中。在方法中使用了R语言下的caret和randomForest包。

SourceTracker分析来确定tag sequence在多个环境样本中的分布程度。该分析利用Source Tracker 2.0.1来完成。在分析之前,每一个样本的序列总数均稀释至1000。

Deblur算法简介:

1). 将样本中序列进行统计个数并由大到少依次排列,依次记录reads ri,counts ci,i = 1,2,…Nreads,ci依次递减。以i =1为例,假设 c′1 为 r1 在初始样本中的真实个数,由于测序过程中的一些错误,c′1 < c1,α是测序过程中出现错误的平均概率,为了得到的 r1 的真实个数,进行以下计算:c′1 =c1/(1-α)

2). 在增加c1之后,需要降低相应的其余序列的个数,因为在该算法中,假设r1测到的真实个数降低,是由于被误测成了其余序列。因此这里选用在不同Hamming距离(即mismatch,dik)下的错误率 β(dik) 来估计其余序列被测成r1的个数,以此来校正不同序列在测序过程中的真实个数。以 rk 为例,1 < k< Nreads,被误测成r1的序列的个数应该是:ck = [1-β(dik)]c′1

3). 重复上述过程,i = 1, 2,…Nreads,i < k< Nreads,依次校正各条序列的真实个数。

备注:不同mismatch下的错误率是基于多个Miseq和Hiseq测序结果的收集起来的统计值。

4. 多样性分析

通过Greengenes数据库建树、UniFrac距离计算,用QIIME进行alpha-多样性(图a)分析,richness与纬度、pH和温度的相关性,beta-多样性(图c)的分析,以及16S rRNA基因平均拷贝数的计算(图d)。 image图2. Alpha和Beta多样性,以及预测的16S rDNA拷贝数。 a. 群体内Alpha多样性观察长度为90-bp序列的丰富度,共有23828个生物为独立的样品。抽样至5000条序列,黄线为组均值,发现自由生活环境比宿主依赖的多样性高; b. 不同pH值和温度下多样性变化,存在单峰分布的规律,即多样性先升高,再降低; c. 按level2/3分组上色展示PC1对应PC2/3平面上样品间距离分布; d. 不同群体中16S基因拷贝数在level2/3水平分布。

5.用更为精确的分类单元代替OTU聚类

微生物生态不再需要OTU聚类,而是一个更为精确的分类单元。这样一来,序列的特异性更高,环境分类也可以更细,使我们能够在更精确的分辨率下观察和分析微生物分布模式。在该文章中,作者以shannon熵值为标准,分别对tag sequence和较高的物种分类在不同环境中的分布进行分析。可以看出,新方法中的标记序列对环境具有较高的特异性,分布偏向于一个或几个环境(低Shannon熵);相比之下,更高的物种分类学水平往往更均匀地分布在不同的环境(高Shannon熵,低特异性)(图a)。不同物种分类级别上的所有标记序列的熵的分布也证实了这一观点(图b) 。为了精确衡量每个分类单元对环境的差异,作者也探究了熵随着生态系统距离的变化而变化的模式(图c)。

image图3. 巢式群体组成(展示大样本中物种分布规律的好方法)。 a. 样品间出现或缺失门,x轴按丰富度排序 ,Y轴按门相对丰度排序。 b. 与a相似,只是分为动、植、盐、非盐四类环境下门有无的分布; c. 评估各级别不同环境中物种的多样性。

image图4. 环境中精确序列和属水平分类结果比较。 a. 环境中分布的属和400个随机的序列相对丰度分布,颜色标注为分类level3。 b. 不同分类级别的香农熵分布箱线图; c. 最大进化树上点对点距离与香农熵关系

结论:

利用精确的序列代替OTUs,可以揭示微生物生态学的基本生物地理模式,其分辨率和范围可以与目前用于宏观生态学的数据分析相匹敌。其结果指出微生物群落的真正原理,可以进行环境特异性更加显著的16S rRNA序列分析。

中国科学院生态环境研究中心

环境生物技术重点实验室

邓晔 研究员课题组发布

猜你喜欢


点击阅读原文,跳转最新文章目录阅读https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

  • 发表于 2017-11-28 15:24
  • 阅读 ( 6165 )
  • 分类:其他组学

0 条评论

请先 登录 后评论
不写代码的码农
刘永鑫

工程师

64 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章