三代组装小基因组研究综述

三代组装各种原理和方法都有。

近日illumina发布了新的测序仪NovaSeq系列,这个测序是相当的便宜,这个可能对于打开100美元人类基因组时代的大门有巨大的帮助。不过本篇文章小编不讲NovaSeq,感兴趣的自行百度就可以了。


小编目前主要是三代动植物基因组方向,今天高铁上跨了个界读了14年的一篇三代在小基因中的应用的综述文章。今天看来这篇文章确实分析的对,可以认为是所谓的领路人吧。


今天分享给大家我的阅读理解,希望大家能有所收获。


One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly


众所周知基因组组装类似将一幅画撕碎,然后再拼接起来,所以很容易理解这样一个道理--撕碎的片段越大越容易拼接起来。虽然现在二代测序价格越来越便宜,但是二代的短片段对于拼接可以说作用非常有限,尤其是对GC富集区、重复区等。相反,长片段测序可以产生Kb以上的片段这些对于小基因组的组装意义巨大。对于研究来说首先可以得到高质量的参考基因组,另外还可以做精度较高的变异检测。接下来我们简单介绍下所谓的长片段测序。


一、背景介绍


根据07年到11年的基因组数据表明0gap和每个碱基准确性都在99.99%以上的基因组所占比例不到35%,这样看来整体的基因组的质量都比较低。这种现状的出现更多的原因在于曾经我们利用的测序手段,短片段组装。另外短片段组装用来研究结构变异作用也很受限,尤其是对大尺度的结构变异。当然这里也不是否认小片段的作用,小片段在于菌株分型、疫情追踪、泛基因组研究上还是有很明显的精度和价格的优势。

针对短片段基因组组装而言,最大的障碍和挑战就是重复序列。重复序列在基因组上有两种类型,第一种就是全基因组分布的序列,另一种就是串联重复序列,这两种重复序列在利用传统图论方法组装的时候会引起较大的问题,很容易导致最后什么都没有组装出来。但是长的read可以简化组装,解决好这些重复区域,甚至直接跨过这些重复区域,因此这样就不存在重复序列干扰组装的问题。

biocc_5f83ce1a_5db2_4d72_9dd5_04371f5425

如果这个重复序列太长超过了长片段read的长度,同样还是解决不了基因组中高重复的问题,同样组装还是会有问题,这里大家不用担心,对于微生物的重复序列中rDNA operon 占比最高,大概在77%左右,但是其长度在5-7Kb。以pacbio测序片段为例其平均读长在10kb以上,解决这些重复没有任何压力。数据表明利用三代可以解决80%的微生物基因组。


二、现有的三代测序平台介绍


(1)PacBio

14年还没有sequel,重点介绍RS,RS和sequel除了通量上不一样,其他的小编认为都差不多。

RS测序的准确性平均在82%左右(2011年数据)刚开始RS由于其错误率较高,不能单独使用,只能和其他的数据结合相互补充进行使用。后来经过化学工艺和文库制备的提升,目前准确性在87%左右。另外由于其没有GC偏好,因此利用较高的深度通过统计学模型来提升测序深度是非常有效的,纠正之后准确性在99.99%以上。这些进步使得利用RS直接组装一个小基因组成为可能。

(2)IIumina synthetic long reads ,Moleculo

这个小编不是很了解,虽然其测序片段较长,但是其存在和二代测序同样的的问题------严重的GC偏好,所以基本不用于denovo assembly。

(3)Oxford Nanopore MinION

如果说传统的测序仪类似传统互联网,那么Nanopore就是今天的移动互联网。他开发的便携式的便宜的小测序仪真正的开启了移动测序、便携式测序的时代。虽然目前它的准确性较低,没有普及开。小编认为以后走进千家万户的测序仪就应该是这个样子的。到那个时候,测序就是很大众的事情啦。

biocc_0127e61a_4db8_4e7f_a3a5_1b274957dd

三、组装算法


组装这里其实有很多种方法,整体来说有如下几种情况。


biocc_dfe7de2d_453f_4090_89ec_fb1ad3d25d1、直接利用OLG(重叠法)通过overlap进行组装的,代表软件是Celera Assembler,这种方法对原始的read的质量要求较高。

2、混合拼接,基本思路是利用二代数据对质量不是很高的read进行纠错提升其质量,然后再利用OLG进行组装。代表软件PBcR、LSC、ECTools等。

3、不借助其他数据进行纠错,通过三代自身进行纠错,然后再利用OLG进行组装。代表软件HGAP、Sprai等。

4、组装提升,组装提升部分分为补洞和重新对scaffold进行连接,排序等。

这里软件前者主要是PBjelly 后者主要是AHA。还有就是利用长片段对二代组装的de Bruijn graph的优化,主要的代表就是二代组装神器Allpaths-LG。

当然以上的方法和软件都有其好的一面和不好的一面,最重要的是要理解什么时候利用哪一个软件。

biocc_2a3b6104_649a_422f_b012_576de80a00

biocc_88114b02_e334_41c1_b63a_836a8d0933

biocc_eb770b46_6773_4540_ad18_25958d74dd


四、讨论


建议在小基因组测序的时候三代测100x以上,这样对于得到一个高质量的小基因组最为保险,当然如果想利用RS进行甲基化检测另说。还有就是对于三代而言DNA提取和文库制备超级超级重要,一定要多加注意。最后不想说,但是文献中提及到了,数据的分析问题可以利用在线的一些商用的云系统,比如Amazon Web Service,价格5美元以下,WHY??


五、参考文献


One chromosome, one contig: complete microbial genomes from long-read sequencing and assembly.

  • 发表于 2017-03-30 22:05
  • 阅读 ( 4661 )
  • 分类:基因组学

0 条评论

请先 登录 后评论
不写代码的码农
SXR

44 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章