5 使用genewise 进行假基因预测,如何对DNA序列文件和相应的蛋白序列文件做1对1 的比对?有合适的脚本么?

使用genewise 进行假基因预测,如何对DNA序列文件和相应的蛋白序列文件做1对1 的比对?有合适的脚本么? 把结果文件写道一个文件里,然后统计有多少个移码突变和提前终止

请先 登录 后评论

1 个回答

张海伦 - 生物信息分析员

这个脚本手头还真没有,我之前有写过注意事项,你看下。统计脚本其实还是很容易的。加油。


1、genewise简介


Genewise软件是大家在基因组项目中经常用到的软件,可能主要用也基因预

测和假基因预测。基因预测以往的文章都提及过,对于假基因预测这部分,也说过,但是总觉得有一些注意的事情没有说清楚,因此在此在写一篇文章跟大家仔细的说一下。


2、命令行和结果


检测假基因

操作命令:
genewise  input-protein3.fa input-dna3.fa >output3.genewise.out 

输出结果如下:


biocc_afdc7ebf_5a87_4293_aa9e_3e79bfbd52


3、重要结果和注意事项


其中最为重要的结果部分为:

biocc_2cce992e_2c20_40c2_b378_8b69f75832
红色部分最上面的那个G代表是参考蛋白的氨基酸,第三个G代表我们的基因组翻译的氨基酸,其对应的碱基为其下面的连续的三个小g。

当比对的结果里面出现“!”时说明 dna 序列中出现了移码突变,当比对中出现 X 时说明出提前终止。


NOTICE


当然!比对还是很简单的,但是对于X的比对需要注意。以为在基因组中如果

某一个位置没有组装出来,我们用N来代替,而NNN在翻译蛋白的时候,会翻译成X。这里就有问题啦。其实genewise中的X是特指在序列中出现了提前终止,也就是出现了TAG,TAA,TGA等。

biocc_6f943982_3c38_4197_99bb_50930f59fa
因此在书写程序处理这一部分的时候,要特别注意只匹配比对行的X和!。

biocc_f3d08c75_ee46_4cfd_84b1_617ddd9f84

请先 登录 后评论
  • 1 关注
  • 0 收藏,7858 浏览
  • zhongmicai 提出于 2017-05-24 16:27

相似问题