看教程不够直观,那就看视频吧! >>点击加载视频
一、写在前面
今天小编跟大家分享一下近期发在nature上的藜麦基因组文章。
2016年一个日本研究组已经在DNA research上发表了第一篇藜麦全基因组测序及组装的文章,其利用的测序方法是Illumina Hiseq 2500结合PacBio RS II。最终组装得到近25,000个scaffold,N50达到86K。文章主要完成基因组结构研究,同科物种基因组的基因家族分析,抗非生物胁迫信号通路的基因进化分析等。这篇文章存在的问题首先是基因组组装结果不能够满足类似基因组结构变异这样的分析;其次,进化部分的分析过于简单,不能够满足科学界对四倍体基因组进化的好奇。所以,上述问题为这篇基因组文章提供了机遇,虽然发表时间晚,但是能够发表在顶级期刊nature上。
二、摘要
藜麦(Chenopodium quinoa)是异源四倍体,这篇文章利用单分子测序+光学图谱+遗传图的方法完成全基因组测序及基因组组装。文章另外利用二代测序方法测序组装两个祖先二倍体,分别为A基因组的C. pallidicaule和B基因组的C. suecicum。文章还对藜麦的22个异源四倍体完成重测序。本篇文章确定了藜麦的进化地位及找到了控制种子中合成anti-nutritional 三萜类(triterpenoid)saponins的重要的转录因子。
三、简介
藜麦营养价值丰富,且其生长适应广阔的生态系统。它被驯化的历史长达7,000年之久,在哥伦布登陆美洲大陆前即被印加王朝进行驯化,并被认为是印加王朝的“mother grain”。藜麦已经适应了安第斯山脉阿尔蒂普拉诺高原(Andean Altiplano)高海拔(高于海平面3,500米)的环境,具备抵抗多种非生物胁迫的能力。藜麦因为其种子不含谷蛋白,营养丰富而受到国际关注。2013年被定为藜麦年(Year of Quinoa).
四、测序和组装
本篇文章用于基因组测序组装的藜麦品种为coastal Chilean quinoa accession PI 614886。利用的测序方法是PacBio公司的单分子测序(SMART sequencing),BioNano Genomics的光学图谱(optical mapping)和Dovetail Genomics的Chicago™ + HiRise™ Service。最终组装得到3,486个scaffolds,scaffold的N50为3.84 Mb,439个最长的scaffold组成90%的基因组, 总共组装出基因组1.39 Gb(估计的单倍体基因组大小是1.45-1.50Gb)(Table 1)。利用之前完成的遗传图谱和两个新的遗传图谱,作者得到6,403个遗传标记(genetic markers),总的遗传距离为2,034厘摩,总共分成18个连锁群。利用遗传图谱,将565个scaffold定位到染色体,定位到染色体的序列达到1.18 Gb。这个组装结果比2016年日本研究组发表的24,000个scaffold,存在25% missing data的组装效果好很多。
五、基因预测
本篇文章采用的是从头预测(ab initio prediction)和基于转录本(transcript evidence)信息的基因预测方法。其中转录本信息由RNA-seq和PacBio isoform sequencing两种测序方法获得。基因预测共得到44,776个gene model,其中33,365个基因的annotation edit distance(AED)values <=0.3(AED是用来比较同一个基因用不同的基因预测方法得到的gene model是否一致的指标,如果AED value为0,则不同的基因预测方法得到的gene model完全相同。AED value是MAKER2基因预测pipeline的指标),暗示基因预测方法的一致性较好,75%的gene model被不同基因预测方法支持度高。利用Plantae BUSCO dataset发现其数据集中97.3%的基因存在于藜麦预测的基因中,暗示预测得到的基因集完整。重复序列分析得到藜麦重复序列占全基因组的64%,其中主要为LTR转座子。
六、藜麦的进化
藜麦(C. quinoa)由祖先二倍体A基因组(C. pallidicaule)和B基因组(C. suecicum)杂交而成。利用藜麦基因组两套基因组的直系同源基因,Ks计算得到Figure 1b显示的峰表示全基因组复制(whole genome duplication; WGD)。这次全基因组复制事件很可能是异源四倍体形成的事件,因为在两个祖先中不存在此次WGD。利用拟南芥和核心真核生物(core eukaryotes)的突变率(mutation rate),文章计算出藜麦异源四倍体形成的事件大概在3.3-6.3百万年前。
在进化历史上,藜属(Chenopodium)二倍体之间易形成异源四倍体,藜麦和其祖先二倍体及藜属其他四倍体之间的进化关系不明确。因此,文章对15个藜麦品种(主要分为两个藜麦群体:highland和coastal),五个C. berlandieri和一个C. hircinum进行重测序分析。利用分析得到的SNP构建进化树,从进化树(Fig. 1c)可以看出,C. berlandieri处在进化树基部(basal),暗示其在本篇文章分析的藜属物种中进化地位最古老。另外,之前认为藜麦是从C. hircinum经历一次进化事件进化出来的,但是从进化树看,C. hircinum的一个品种在8个藜麦品种的基部,这暗示highland藜麦和coastal藜麦是独立进化的。
七、藜麦亚基因组结构分析
通过将藜麦的两个二倍体祖先C. pallidicaule和C. suecicum的测序reads比对到藜麦的scaffold上,同时利用BLAST将组装完成的两个二倍体的基因组序列分别比对上藜麦基因组上,分析得到藜麦A亚基因组存在156个scaffold,B亚基因组存在410个scaffold。B亚基因组的遗传距离(1,087 cM)和碱基数(660 Mb)都大于A亚基因组(946 cM和524 Mb)。
利用5,807个A亚基因组和B亚基因组的homeologous同源基因对做共线性分析,发现两套基因组呈现高共线性(Fig. 2b)。研究发现,3.1%的homeologous基因对定位在同一套亚基因组,暗示染色体间的重组和结构变异发生在A亚基因组和B亚基因组。比如,作者发现B亚基因组的5号染色体(CqB05)和A基因组的12号染色体(CqA12)同源,但是其他染色体没有如此清晰的同源关系。由于两套二倍体基因组没有组装到染色体水平,为了看清楚两套基因组之间的染色体结构变异情况,作者引入甜菜(Beta vulgaris)基因组,结果发现CqA02和CqA04分别与甜菜的8号和2号染色体同源,而CqB01和CqA07似乎是染色体融合的结果。
八、亚基因组基因分析
利用OrthoMCL寻找藜麦,藜麦两个二倍体祖先及甜菜的直系同源基因,利用藜麦中的单拷贝基因,与两个二倍体祖先基因组相比,发现A亚基因组和B亚基因组基因丢失(gene loss)的个数相似(1,031个和849个)。另外,上文提到的藜麦5,807个homeologous同源基因对在两个二倍体中分别为一个拷贝,因此它们组成了每个二倍体基因组或藜麦亚基因组的单拷贝基因集。
九、Saponins的合成机制
藜麦种子含有三萜皂苷类(triterpene glycosides)混合物,称为saponins。虽然saponins对植物生长有益(防御食草动物),但是在人食用前需要去除,不去除会导致溶血和产生苦味。在生产实践中,去除saponins的花费很高,且会造成很多种子中的营养物质的流失,所以saponin-free一直是藜麦育种的主题。saponins在藜麦开花后20-24天的种皮中积累,最终占到成熟种子质量的4%。Saponins种类众多,研究者在本次全基因组测序藜麦品种中发现43种,而之前的研究发现大约存在100种。
甜藜麦含有的saponins含量很低。为了找到控制这个性状的基因,文章利用linkage mapping和BSA的方法,结合两个segregating population:Kurmi(甜藜麦)X 0654(苦藜麦),Atlas(甜藜麦)X Carina Red(苦藜麦)定位基因。F1的表型显示苦藜麦性状为单基因控制且呈现显性。另外发现saponins的存在与种皮厚度的差别相关,苦品种的藜麦种皮比甜品种的明显厚。
linkage mapping和BSA将性状定位在CqB16染色体的scaffold 3489上的一个700 kb window。在这700 kb区域内,共有54个功能注释的基因,其中两个基因AUR62017204和AUR62017206与苜蓿中的基因TSAR1和TSAR2存在同源性。TSAR1和TSAR2在一篇苜蓿的文献中被证明在saponins合成通路起作用,且文献中提到这两个基因可以结合一段特异的DNA motif:5’-CACGHG-3’。在藜麦中,文章发现AUR62017204(TSARL1)只在种子中表达,且在甜藜麦品种中表达量低;藜麦的saponin合成通路的基因start codon上游2 kb序列存在TSAR结合的那段DNA motif;saponin合成通路的基因在甜藜麦中低表达。以上暗示TSARL1很可能是TSAR的直系同源,从而在控制saponins合成过程中起转录调控作用。
TSARL1转录本在Kurmi和0654的后代植株中存在可变剪切。TSARL1转录本第三个外显子最后一个碱基存在一个SNP(G2078C),该SNP与Kurmi和0654的杂交后代saponins的含量性状共分离。G2078C会改变intron/exon剪切边界,有可能使剪切发生在第三个外显子上游的一个位置(Fig. 4e)。这样的可变剪切会使TSARL1产生提前终止,生成的多肽不能形成homodimer,且不具备结合DNA的能力,也就丧失了调控转录的作用。所有Kurmi和0654的后代中的苦藜麦在上述SNP位点的基因型都为G,而几乎所有的甜藜麦都具有G2078C这个基因型,除了Pasankalla这个品种。Atlas品种的个体重测序发现Atlas品种有些个体存在G2078C基因型,有些携带外显子的插入序列。这样的插入序列很可能导致基因功能的丧失,从而使植株具有甜种子表型。两种不同的TSARL1突变形式与甜的性状的相关性暗示TSARL1基因调节了saponins在藜麦种子中的合成。另外,TSARL1也调控固醇类的合成,但是苦和甜藜麦表型上不能发现明显的相关区别。这也许是因为固醇类合成需要的前体物质是由质体中的MEP通路提供的。当然,这些需要相关的功能实验进行验证。
十、藜麦的育种方向
藜麦的育种需要如下性状:更矮小的植株,植株少一些分支,更紧凑的种穗(seed head),抗高温和生物胁迫能力,甜种子的表型。本篇文章对控制藜麦苦种子性状基因的发现不仅从科学角度提供了saponins合成的机理,更为分子标记育种提供了素材。藜麦成为研究四倍体基因组进化的模式植物,同时也为研究植物抗盐胁迫提供基因组素材。
十一、参考文献
Yasui Y, et al. Draft genome sequence of an inbred line of Chenopodium quinoa, an allotetraploid crop with great environmental adaptability and outstanding nutritional properties. DNA Res 2016, 23(6): 535-546
Jarvis E. D., et al. The genome of Chenopodiium quinoa. Nature 2017, published online 08 Feb. 2017
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!