基因预测结果整合软件：EVM

EVM很好的基因预测整合软件。

Automated eukaryotic gene structureannotation using

EVidenceModeler and the Program to AssembleSpliced

Alignments

摘要

EVM是一个自动的对真核基因结构进行注释的工具，他可以对已有的证据结合权重进行评估。

EVM和pasa结合，能够产生一个综合的，可靠的含有编码去和可变剪切的基因结构。

我们在人和水稻两个基因组上进行了验证，证明EVM可以达到类似手工注释的效果。

背景

1、单一的软件搞不定。

2、ab initio gene prediction software 对于单个外显子和编码基因相关的区域很准确，但是对整体的基因结构预测很难找对整体的位置。：genscan，GlimmerHMM，Fgenesh，GeneMark.Hmm.

3、整体基因结果的修正和预测往往借助同源和转录本方法。

软件包括：AAT，exonerate，PMAP（derived from GMAP）对于真核基因组基因结构比对并有统计学模型支持的软件genewise（Ensemble annotation pipeline）。缺点在于只能解决一部分基因的整体结构问题。

4 、更综合的真核基因结果预测会同时考虑物种的内在特性（从头）和外在的一些信息（同源，转录组）。TWINSCAN，N-SCAN_EST,ExonHunter，Augustus，Genie。这样对准确性有很大的提升。

5、早期打的基因组项目，为了保证高质量，会严重的依赖手动对结构的注释.软件包括：Apollo ，Artemis，质量高，成本高。

6、全长CDNA(FL-cDNA)(mRNA)减少了手工注释的负担。主要提供了一个软件PASA（Program toAssemble Spliced Alignments）可以根据EST 和FL-cDNA或者加上已有的基因结构的信息进行注释。

7 、EVM，一个对现有软件整合的方法。能够高校，准确的寻找高质量的证据来进行整合已得到和手工同样好的结果。

Results and discussion

后面的章节中主要用了人和水稻来证明EVM的好的效果

首先是找到1058个水稻中cDNA验证过的基因，利用EVM对三个从头预测软件进行整合（权重相等）。统计敏感性和阳性检测率（Sn，Sp）。

可以看出来尽管各个从头预测软件的效果不好，但是在weight相等的情况下，我们通过EVM整合，还是可以提升准确性的。

对预测的外显子分为四种情况：single，initial，terminal，internal等

可以很明显的知道几个从头预测的软件预测的交集是很少的一部分。

结论

Although we cannot

rely on shared exons to predict all genescorrectly, we can in

this circumstance trust those that areshared with greater

Confidence.

后面做了一个这样的实验。在利用三个从头预测软件进行预测，然后利用EVM（随机设计weight的情况下）进行整合。然后加入同源预测的信息，然后利用EVM整合（随机设计weight的情况下），然后加入pasa（转录组）信息进行整合。

如下图：0-10 次是只有从头预测的软件 11-20是加入了同源预测的软件。21-30是加入了转录组的结果。

可以得到的结论

加入准确性高的结果会提升整体EVM整合的准确性，并且不依赖于weight的影响。

举例：加入同源之后准确性比仅有从头提升了很多，weight只会使结果有波动，不会影响趋势。

Intuitive versus trained weights

从头<同源<genewise<pasa

例如：

从头：0.3

同源：1

Genewise：5

Pasa：10

当然EVM 还是支持自动训练参数的，

训练参数的公式：

大概的意思就是，他利用gSn和eSn构建了一个公式，然后利用weight随机20多次，选择出分数最好的那组数据，作为weight值。

不过：

训练和不训练（自己制定）相差不会超过3%。

算法

EVM对其他预测出来的基因结构进行分析，整合成为一个大的非冗余外显子集合。

对于同源和转录组的预测的结果，偏好的认为其大概的基因座位置是对的，但是基因结构不做要求，整合的时候之考虑interna。而对于从头预测的软件，其结构识别是很准确的，但是整体结构不一定对，因此会将从头预测的结果按照四种外显子类型划分，不利用整体的基因结构进行整合。

整合的方法如下：就是对一段区域内的所有外显子（根据制定的weight和长度，特征）进行打分，然后从头到尾利用动态规划算法找到一条分数最高的路径，这个路径就是最佳的基因结构。

发表于 2017-04-01 15:18
阅读 ( 13517 )
分类：软件工具

基因预测结果整合软件：EVM

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »