N50多少,证明组装的好?

N50如何评估组装效果

1、简介


大家在科研和工作过程中,经常会接触到n50,n90,这些概念。比如从头组装一个基因组,n50应该达到多少,才算合适呢。当然现在情况下,接触牛叉的测序新技术,是越长越好,

但是对于那些不好组装的项目,在做项目之前,应该首先评估这个n50应该组装到多少合适。


2、n50的概念。


以contig N50 为例。

Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.


3、N50如何影响基因预测


成功注释基因组的第一步就是看组装有没有达到要求,除了一些统计指标来表述组装的完整性和连续性之外,最重要的就是N50.尽管没有绝对的标准,但是对于基因预测而言,n50达到基因的平均长度是一个合理的目标,原因十分简单:基因中约有50%有望包括在单个scaffold或者contig中。对于n90,就是基因中约有90%有望包括在单个scaffold或者contig中。这样会得到完整的基因序列。这是很有意义的。


4、基因组大小和基因平均长度的关系


既然如此,如何可以根据基因的平均长度来估计n50的合理值,但是如何得到基因的平均长度呢,通常情况下可以通过已经测序的近缘物种的基因长度进行估计,但是更多的情况下可以通过这张图,基因组和基因平均长度的对应关系图进行估计。

biocc_d1347276_d7d3_4e00_93ca_57a7613afe

X轴代表基因组大小取对数之后的值

Y轴代表基因平均长度取对数之后的值

因此可以根据基因组大小估计基因平均长度,从而估计N50的合理值。

  • 发表于 2017-04-06 09:42
  • 阅读 ( 23690 )
  • 分类:基因组学

2 条评论

请先 登录 后评论
不写代码的码农
SXR

44 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章