基因预测结果整合软件:EVM

EVM很好的基因预测整合软件。

Automated eukaryotic gene structureannotation using

EVidenceModeler and the Program to AssembleSpliced

Alignments


摘要


EVM是一个自动的对真核基因结构进行注释的工具,他可以对已有的证据结合权重进行评估。

EVM和pasa结合,能够产生一个综合的,可靠的含有编码去和可变剪切的基因结构。

我们在人和水稻两个基因组上进行了验证,证明EVM可以达到类似手工注释的效果。

背景


1、单一的软件搞不定。

2、ab initio gene prediction software 对于单个外显子和编码基因相关的区域很准确,但是对整体的基因结构预测很难找对整体的位置。:genscan,GlimmerHMM,Fgenesh,GeneMark.Hmm.

3、整体基因结果的修正和预测往往借助同源和转录本方法。

软件包括:AAT,exonerate,PMAP(derived from GMAP)对于真核基因组基因结构比对并有统计学模型支持的软件genewise(Ensemble annotation pipeline)。缺点在于只能解决一部分基因的整体结构问题。

4 、更综合的真核基因结果预测会同时考虑物种的内在特性(从头)和外在的一些信息(同源,转录组)。TWINSCAN,N-SCAN_EST,ExonHunter,Augustus,Genie。这样对准确性有很大的提升。

5、 早期打的基因组项目,为了保证高质量,会严重的依赖手动对结构的注释.软件包括:Apollo ,Artemis,质量高,成本高。

6、 全长CDNA(FL-cDNA)(mRNA)减少了手工注释的负担。主要提供了一个软件PASA(Program toAssemble Spliced Alignments)可以根据EST 和FL-cDNA或者加上 已有的基因结构的信息进行注释。

7 、EVM,一个对现有软件整合的方法。能够高校,准确的寻找高质量的证据来进行整合已得到和手工同样好的结果。

 

 Results and discussion


后面的章节中主要用了人和水稻来证明EVM的好的效果

首先是找到1058个水稻中cDNA验证过的基因,利用EVM对三个从头预测软件进行整合(权重相等)。统计敏感性和阳性检测率(Sn,Sp)。

biocc_b5f6eeff_a1bd_48cf_842c_c2def62524

可以看出来尽管各个从头预测软件的效果不好,但是在weight相等的情况下,我们通过EVM整合,还是可以提升准确性的。

biocc_58763b36_2673_4906_8909_a7ecf8c7eb

对预测的外显子分为四种情况:single,initial,terminal,internal等

可以很明显的知道几个从头预测的软件预测的交集是很少的一部分。

 


结论


Although we cannot

rely on shared exons to predict all genescorrectly, we can in

this circumstance trust those that areshared with greater

Confidence.

 

 

后面做了一个这样的实验。在利用三个从头预测软件进行预测,然后利用EVM(随机设计weight的情况下)进行整合。然后加入同源预测的信息,然后利用EVM整合(随机设计weight的情况下),然后加入pasa(转录组)信息进行整合。

如下图:0-10 次是只有从头预测的软件 11-20是加入了同源预测的软件。21-30是加入了转录组的结果。

biocc_9b2fa785_d21d_483b_bce7_2a1aa69f48

可以得到的结论

加入准确性高的结果会提升整体EVM整合的准确性,并且不依赖于weight的影响。

举例:加入同源之后准确性比仅有从头提升了很多,weight只会使结果有波动,不会影响趋势。

Intuitive versus trained weights

从头<同源<genewise<pasa

例如:

从头:0.3

同源:1

Genewise:5

Pasa:10

当然EVM 还是支持自动训练参数的,

训练参数的公式:

biocc_8b357a79_eaf3_4675_ae56_f63d31fbf4

大概的意思就是,他利用gSn和eSn构建了一个公式,然后利用weight随机20多次,选择出分数最好的那组数据,作为weight值。

不过:

 biocc_c6691cdd_66ed_4c96_878f_c7f7d58303


训练和不训练(自己制定)相差不会超过3%。


算法


EVM对其他预测出来的基因结构进行分析,整合成为一个大的非冗余外显子集合。

对于同源和转录组的预测的结果,偏好的认为其大概的基因座位置是对的,但是基因结构不做要求,整合的时候之考虑interna。而对于从头预测的软件,其结构识别是很准确的,但是整体结构不一定对,因此会将从头预测的结果按照四种外显子类型划分,不利用整体的基因结构进行整合。

整合的方法如下:就是对一段区域内的所有外显子(根据制定的weight和长度,特征)进行打分,然后从头到尾利用动态规划算法找到一条分数最高的路径,这个路径就是最佳的基因结构。

biocc_f8f4a4a0_1cec_442f_89fb_5c09924e98

  • 发表于 2017-04-01 15:18
  • 阅读 ( 11721 )
  • 分类:软件工具

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
不写代码的码农
SXR

44 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章