看教程不够直观,那就看视频吧! >>点击加载视频
一个完整的基因预测流程离不开pasa对结果的注释和对结果的修饰--------
A complete annotation pipeline, as implemented at the Broad Institute, involves the following steps
(A) ab initio gene finding using a selection of the following software tools: GeneMarkHMM, FGENESH, Augustus, and SNAP, GlimmerHMM. 从头预测
(B) protein homology detection and intron resolution using the GeneWise software and the uniref90 non-redundant protein database. 同源预测
( C) alignment of known ESTs, full-length cDNAs, and most recently, Trinity RNA-Seq assemblies to the genome.基于转录组比对
(D) PASA alignment assemblies based on overlapping transcript alignments from step ( C) Pasa整合和提升
(E) use of EVidenceModeler (EVM) to compute weighted consensus gene structure annotations based on the above (A, B, C, D)EVM结果整合
(F) use of PASA to update the EVM consensus predictions, adding UTR annotations and models for alternatively spliced isoforms (leveraging D and E). 利用pasa进行修饰
(G) limited manual refinement of genome annotations (F) using Argo or Apollo
手工校正
今天主要是来分享一下03年pasa现在有pasa2了这篇文献如何通过pasa利用est和转录组数据对拟南芥基因组注释结果进行提升的。
Improving the Arabidopsis genome annotation using
maximal transcript alignment assemblies
摘要
将转录组数据和基因组做比对得到这一类spliced alignment对于基因组深度注释和分析很有帮助。目前有一款新的软件pasa可以通过对已有的转录本est序列通过其overlap 进行聚类组装程较长的alignment assemble 。并将其作为基因预测和基因结果识别的基础这样可以预测出新的基因和增加可变剪切的情况。
在优化拟南芥注释的项目中有半数以上的基因被修饰超过1000个添加了可变剪切另外还增加了多个新的基因。
INTRODUCTION
目前est和cDNA 使得对基因组深度注释成为现实现在通常的做法是利用gapped alignments来识别基因中的exon 和intron 并为之提供证据支持。现在的基因组注释更加依赖于转录组数据。大量的转录组数据不仅能够提高基因注释的准确性也能为可变剪切提供有利证据。
但是目前的主要方法侧重于将转录组数据组装程唯一的一个基因。这样可能会丢掉部分可变剪切。现在常用的比对工具有blat、sim4、gap2、spideyGeneSeqer软件现在看来都比较过时但是希望能领会精神 。目前能倾向于利用transcript-genome alignments 进行基因预测和可变剪切的识别03年FL-cDNA 还是比较少的。
因为不利用transcript-genome alignments 结果进行预测很容易收到序列比对效果低的测序质量低质量的基因组的影响。因为alignment assemble是利用多个转录本组装聚成的结果因此能够有效的减少这些错误。
方法和材料
比对组装算法
首先将est转录组数据和基因组做比对然后从左到右从0,1,2将所有的alignment排列。如果某一个cDNA有两处比对50,100150,170那么这个比对是50,170。
我们假设所有的cDNA都不是随机比对上基因组的都是准确比对的这个假设可以接受。那么我们可以认为每一处alignment都是不可交换的的。
我们计算这种大的alignment assemble 是利用动态规划算法得到的EVM中是将各个预测软件exon 利用动态规划整合这里利用动态规划对转录本进行整合真牛叉阿。
Let La denote the maximum number of cDNAs in a
contiguous assembly that ends at alignment a, i.e. it includes a,
compatible alignments contained in the span of a and
alignments that end strictly before the end of a, but not
alignments that strictly contain a. For compatible overlapping
alignments a and b, let Ca denote the number of a-compatible
alignments contained in the span of a (including a itself) but
not contained in b and let Ca denote the number of a-
compatible alignments contained in the span of a.
这一部分只能意会不能言传大家领会思想
大概的意思是a和b 有overlap或者是b在a 的左边或者是a不被b包含然后利用这三种情况对La打分这个跟动态规划思想太有关系了向深入来了解的自行google
1从右到左
2从左到右
直接上示意图
A图表示有9种转录本或者est序列信息。
然后b图是将这些信息绘制成数据表格
对于0,1,2,3,4,5,6,7,8中有overlap的直接利用网格连接如果没有连接的直接放上砖头。其他情况下上三角La从右到左下三角Ra从左到右。
选择出分数最高的那条路径就搞定了。
因此可以得到两个组装结果。
比对组装和注释过程
我们利用全长cDNA非全长cDNA和est序列利用SeqClean过滤掉污染之后。然后利用比对软件比对首先利用blat如果blat比对失败再利用sim4然后利用GeneSeqer。Blat和sim4更为快和准确虽然GeneSeqer比对比较慢但是他能在其他软件比对识别的时候对小exon的识别效果显著。
然后利用pasa进行整合。
整合的标准
由于拟南芥的基因注释结果经过了手工校正因此提升效果数量相对而言还是很少的。
主要有一下两类我们也根据自己手工调整得到了可供参考的标准。
新增加的可变剪切位点。这里我们提供的参考是最小的isoforms编码的蛋白至少是最长的isoforms的70%.(70%indentity)否则会影响基因预测的准确性。
对于已有的基因结构的提升和修饰我们也建议其翻译的蛋白至少要有70%覆盖70%准确性和已知的数据库比对另外不允许出现连续两个及以上的exon 被认为是utr的情况。
策略
全长的转录组比对用来添加新的基因替代已有的基因结构。不完整的比对用来对已有的基因结果进行修饰。
结果和讨论
cDNA比对和组装
利用177973个ests27414个完整的cDNA和3217个不完整的cDNA一共208604条序列和拟南芥基因组比对。
基因组注释比对和提升
提升效果如下
主要提升的几种情况
添加或延长UTR延长编码区改变internal exon 情况提供可变剪切预测新基因。
Pasa的主要功能
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!