PASA：提升基因预测的利器

PASA牛叉的利用转录组预测基因

一个完整的基因预测流程离不开pasa对结果的注释和对结果的修饰--------

A complete annotation pipeline, as implemented at the Broad Institute, involves the following steps

(A) ab initio gene finding using a selection of the following software tools: GeneMarkHMM, FGENESH, Augustus, and SNAP, GlimmerHMM. 从头预测

(B) protein homology detection and intron resolution using the GeneWise software and the uniref90 non-redundant protein database. 同源预测

( C) alignment of known ESTs, full-length cDNAs, and most recently, Trinity RNA-Seq assemblies to the genome.基于转录组比对

(D) PASA alignment assemblies based on overlapping transcript alignments from step ( C) Pasa整合和提升

(E) use of EVidenceModeler (EVM) to compute weighted consensus gene structure annotations based on the above (A, B, C, D)EVM结果整合

(F) use of PASA to update the EVM consensus predictions, adding UTR annotations and models for alternatively spliced isoforms (leveraging D and E). 利用pasa进行修饰

(G) limited manual refinement of genome annotations (F) using Argo or Apollo

手工校正

今天主要是来分享一下03年pasa现在有pasa2了这篇文献如何通过pasa利用est和转录组数据对拟南芥基因组注释结果进行提升的。

Improving the Arabidopsis genome annotation using

maximal transcript alignment assemblies

摘要

将转录组数据和基因组做比对得到这一类spliced alignment对于基因组深度注释和分析很有帮助。目前有一款新的软件pasa可以通过对已有的转录本est序列通过其overlap 进行聚类组装程较长的alignment assemble 。并将其作为基因预测和基因结果识别的基础这样可以预测出新的基因和增加可变剪切的情况。

在优化拟南芥注释的项目中有半数以上的基因被修饰超过1000个添加了可变剪切另外还增加了多个新的基因。

INTRODUCTION

目前est和cDNA 使得对基因组深度注释成为现实现在通常的做法是利用gapped alignments来识别基因中的exon 和intron 并为之提供证据支持。现在的基因组注释更加依赖于转录组数据。大量的转录组数据不仅能够提高基因注释的准确性也能为可变剪切提供有利证据。

但是目前的主要方法侧重于将转录组数据组装程唯一的一个基因。这样可能会丢掉部分可变剪切。现在常用的比对工具有blat、sim4、gap2、spideyGeneSeqer软件现在看来都比较过时但是希望能领会精神。目前能倾向于利用transcript-genome alignments 进行基因预测和可变剪切的识别03年FL-cDNA 还是比较少的。

因为不利用transcript-genome alignments 结果进行预测很容易收到序列比对效果低的测序质量低质量的基因组的影响。因为alignment assemble是利用多个转录本组装聚成的结果因此能够有效的减少这些错误。

方法和材料

比对组装算法

首先将est转录组数据和基因组做比对然后从左到右从0,1,2将所有的alignment排列。如果某一个cDNA有两处比对50,100150,170那么这个比对是50,170。

我们假设所有的cDNA都不是随机比对上基因组的都是准确比对的这个假设可以接受。那么我们可以认为每一处alignment都是不可交换的的。

我们计算这种大的alignment assemble 是利用动态规划算法得到的EVM中是将各个预测软件exon 利用动态规划整合这里利用动态规划对转录本进行整合真牛叉阿。

Let La denote the maximum number of cDNAs in a

contiguous assembly that ends at alignment a, i.e. it includes a,

compatible alignments contained in the span of a and

alignments that end strictly before the end of a, but not

alignments that strictly contain a. For compatible overlapping

alignments a and b, let Ca denote the number of a-compatible

alignments contained in the span of a (including a itself) but

not contained in b and let Ca denote the number of a-

compatible alignments contained in the span of a.

这一部分只能意会不能言传大家领会思想

大概的意思是a和b 有overlap或者是b在a 的左边或者是a不被b包含然后利用这三种情况对La打分这个跟动态规划思想太有关系了向深入来了解的自行google

1从右到左

biocc_3ea8038e_2eeb_4df9_ae9c_1444b05eb3

2从左到右

biocc_fdedace1_2d46_4a3b_8d04_0b0e0d1043

直接上示意图

biocc_73844b82_c66c_49bd_815c_70caaf3b10

A图表示有9种转录本或者est序列信息。

然后b图是将这些信息绘制成数据表格

对于0,1,2,3,4,5,6,7,8中有overlap的直接利用网格连接如果没有连接的直接放上砖头。其他情况下上三角La从右到左下三角Ra从左到右。

选择出分数最高的那条路径就搞定了。

biocc_f60f2ff7_6ba6_4b4a_9b35_a30a31abb0

因此可以得到两个组装结果。

biocc_cac63891_aa52_4c09_8650_55c41616b0

比对组装和注释过程

我们利用全长cDNA非全长cDNA和est序列利用SeqClean过滤掉污染之后。然后利用比对软件比对首先利用blat如果blat比对失败再利用sim4然后利用GeneSeqer。Blat和sim4更为快和准确虽然GeneSeqer比对比较慢但是他能在其他软件比对识别的时候对小exon的识别效果显著。

然后利用pasa进行整合。

整合的标准

由于拟南芥的基因注释结果经过了手工校正因此提升效果数量相对而言还是很少的。

主要有一下两类我们也根据自己手工调整得到了可供参考的标准。

新增加的可变剪切位点。这里我们提供的参考是最小的isoforms编码的蛋白至少是最长的isoforms的70%.(70%indentity)否则会影响基因预测的准确性。

对于已有的基因结构的提升和修饰我们也建议其翻译的蛋白至少要有70%覆盖70%准确性和已知的数据库比对另外不允许出现连续两个及以上的exon 被认为是utr的情况。

策略

全长的转录组比对用来添加新的基因替代已有的基因结构。不完整的比对用来对已有的基因结果进行修饰。

结果和讨论

cDNA比对和组装

利用177973个ests27414个完整的cDNA和3217个不完整的cDNA一共208604条序列和拟南芥基因组比对。

biocc_ef7821c5_e2fb_46b5_9608_d9b52301aa

基因组注释比对和提升

biocc_6f38510f_d6aa_4eba_9d2c_082feccc85

提升效果如下

biocc_04807415_3eb9_40e2_8196_c6948febe2

主要提升的几种情况

添加或延长UTR延长编码区改变internal exon 情况提供可变剪切预测新基因。

biocc_1a0555b1_996b_4c0d_a61e_08f20709dc

Pasa的主要功能

发表于 2017-04-01 15:21
阅读 ( 10816 )
分类：文献解读

PASA：提升基因预测的利器

你可能感兴趣的文章

相关问题

0 条评论

作家榜 »