细菌完成图组装软件简单介绍

细菌基因组简单组装

最近看了两篇三代测序数据用于细菌完成图组装的软件,一个是AHA,一个是HGAP。这两个软件中AHA是采用的混合拼接的方法,HGAP则是完全利用的唇三代数据。


AHA 的文章

A Hybrid Approach for the Automated Finishing of Bacterial Genomes(12年)

文章主要的对海地霍乱菌株,利用已有的contig序列,通过三代长片段,组装得到了近完成图,最终的准确性大概有99.9%。

因为二代测序小片段组装难以解决细菌中的三个区域,因此利用三代能得到好的效果,有助于后续的分析。

 

这其中三部分复杂区域主要是:rRNA 操纵子重复区域,前噬菌体区域,superintegron 区域。

 

biocc_1e409d91_6f1a_4616_9470_ab9edde30b

biocc_91f07fd2_0b54_40fa_a60e_cb7e016f9b

biocc_a8539269_96da_4743_84d6_1865e7590b


文章还说明了完成图对于细菌基因组分析的重要型,其中最重要的一点就是曾经通过多位点和表型分型会容易忽略一些潜在的变异,而利用完成图则不会。


知识延伸

Typing分型技术

常用的细菌分型技术包括:脉冲场电泳法、随机引物PCR法、扩增片段长度多态性、多位点分型、质粒图谱分析,核糖体分型等。意义在于:流行病检测、致病机制和耐药机制研究、检测抗生素活性研究等。

biocc_8e9ac709_2534_4d24_acb6_6198de8834
 

HGAP软件


Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data

HGAP软件相对与混合拼接软件来说,优点在于不需要大量的准确性的read片段来进行纠错,本身可以自身进行纠错。原理大概如下:首先利用长read做为种子序列来收集其他的reads来构建精度较高的preassembled reads ,然后再进行组装。

 biocc_3bfa8674_b8b6_47fe_bfc3_80c6af800d

对E.coli  进行拼接过程和效果如下:

biocc_bca61f85_237d_4749_8705_a38f045d43
 

其他物种组装效果

 biocc_82670bd5_eafc_4427_918e_8d81f46004

和其他混合拼接结果相比

biocc_0f63de10_9e54_4936_8b34_6605e43d97


  • 发表于 2017-04-01 16:45
  • 阅读 ( 6469 )
  • 分类:基因组学

0 条评论

请先 登录 后评论
不写代码的码农
SXR

44 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章