基因预测,你有考虑串联重复基因吗?

串联基因在基因预测中还是很难处理的,你有考虑吗?

1、串联重复基因简介

 

串联重复基簇,指基因家族中的各个成员之间紧密成簇排列成大串的重复单位,定于染色体的特殊区域。串联基因簇是指基因组中串联重复数百次的某些基因或者簇区域构成中度重复的DNA区段。。。。。

是不是觉得这个概念很绕,理解起来要命。小编在日常工作中,将这一部分简单理解成就是同一个基因在临近位置出现多次。哎,最笨,直接上图:

 biocc_1dc69a33_920f_4fb2_807b_6cf79f0465

颜色相同的代表基因序列相同。大家明白了没?就是蓝色的基因在临近的位置出现多次。

针对这种情况怎么进行预测???


2、我能想到的方法(也有文献这么做)


首先是将这一部分蓝色的基因,屏蔽掉,省的它的存在干扰到对其他基因的预测,然后针对这一部分来针对性预测这种串联基因,这里包括从头,同源和转录组。当然转录组预测的话,压根不用考虑这里重复的问题。

利用转录组数据来预测,稍显单调,加上从头预测,怕弄得结构不准。这里增加同源预测,貌似更能解决问题。


3、那么同源能解决串联重复的基因吗?


大家跟我一起回忆下,基因预测中,如何做同源预测的吧。首先利用近缘物种的蛋白,利用blast比对,然后找一个整合的软件,将局部比对的位置整合起来(类似blat的功能),然后对一部分区域再进行预测。

要知道genewise 软件还是很牛叉的,如果在初步比对的时候,能将潜在含有基因的区域比对出来,交给genewise,找准基因的结果,还是妥妥的。但是如果找不准的话,结果是很糟糕的。

示意图:

biocc_727b0c53_d112_42e5_ad2c_079dc63be5

4、那么存在这样的软件吗?


看文献!

文献说自07年以来,开发了很多这样的软件,这些软件用来第一过滤掉blast中的随机比对,还有就是将这些局部比对整合为一个存在基因得候选比对区域。

Wu-blast,这个软件效果还是可以的,但是最要命的就是他对串联重复基因解决不了。

同样solar(这是个神器啊,bug不断),也不能识别串联重复的基因。

Blat 如上。

文献关上了很多门,但是同时也给开了一扇窗。介绍了一款软件genblastA

不再扯牛皮了,小编啃了这个软件的原理一下午,最后放弃了,大家谁想看自己去看吧。我智商有限。

我只能大概的复述为:原理是利用将聚类分组的问题转化为图论中寻找最短路径的问题。(还好,大学的时候学习过图论,稍微懂一点。)

然后这个软件的优点就是能识别串联重复的基因。所以这个软件完全适用。

另外这个软件的使用也是傻瓜是操作,我这里就不赘述啦。

 

5、最后再说两句

总之,大家如果在以后的基因组问题处理的时候,一定要注意对串联重复基因的预测,否则,得到的结果,可能会超级烂。

大家有什么问题也可以直接找我聊哈!

另:公众号小店(红色讨个彩)也开张啦,目前可以选择的商品限于画图和统计,大家有其他的需求(有偿的,无偿的),也都可以私信我。


美美的circos图示例:

biocc_8094a832_db69_47a6_83e2_914d3dfa34

  • 发表于 2017-03-28 20:25
  • 阅读 ( 7931 )
  • 分类:基因组学

你可能感兴趣的文章

相关问题

1 条评论

请先 登录 后评论
不写代码的码农
SXR

44 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章