看教程不够直观,那就看视频吧! >>点击加载视频
1、简介
大家在科研和工作过程中,经常会接触到n50,n90,这些概念。比如从头组装一个基因组,n50应该达到多少,才算合适呢。当然现在情况下,接触牛叉的测序新技术,是越长越好,
但是对于那些不好组装的项目,在做项目之前,应该首先评估这个n50应该组装到多少合适。
2、n50的概念。
以contig N50 为例。
Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.
3、N50如何影响基因预测
成功注释基因组的第一步就是看组装有没有达到要求,除了一些统计指标来表述组装的完整性和连续性之外,最重要的就是N50.尽管没有绝对的标准,但是对于基因预测而言,n50达到基因的平均长度是一个合理的目标,原因十分简单:基因中约有50%有望包括在单个scaffold或者contig中。对于n90,就是基因中约有90%有望包括在单个scaffold或者contig中。这样会得到完整的基因序列。这是很有意义的。
4、基因组大小和基因平均长度的关系
既然如此,如何可以根据基因的平均长度来估计n50的合理值,但是如何得到基因的平均长度呢,通常情况下可以通过已经测序的近缘物种的基因长度进行估计,但是更多的情况下可以通过这张图,基因组和基因平均长度的对应关系图进行估计。
X轴代表基因组大小取对数之后的值
Y轴代表基因平均长度取对数之后的值
因此可以根据基因组大小估计基因平均长度,从而估计N50的合理值。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!