从生信标准说起

小小的喷一下

关于这个话题我早就想吐槽下了。

大家都知道

三流企业卖产品

二流企业卖服务

一流企业卖标准

最近华为拿到了5G通讯的部分标准,确实让人振奋。

回到生物信息中,目前生物信息学中的数据格式标准还是可以的。比如标准的fa、fastq、gff3、bam等,这些标准格式用起来还是可以的。

今天小编主要想吐槽的就是生信分析中阈值这个点。

首先吐槽就是相似性,目前大家在做同源比对的时候,大多会选择80%的区域相似,我们就认为这两个序列同源。这里这个80%是怎么来的呢,我想大多情况下是大家的经验之谈。

第一个吃螃蟹的人说用筷子夹着吃好吃,跟随者自不必尝试下用勺子的好处。

还有就是E value,在blast的时候,大家都默认物种内是-10,物种间是-5,这些又是经验之谈了。

当然这些在处理一般的问题的时候没有什么问题。但是在处理特殊的物种的情况下就会出现很多的问题。比如这个物种整体就是和参考相差太多,变异较多。你还固守参数的话,结果肯定惨不忍睹。

我相信这里举的例子只是一个简单的代表,靠阈值来卡好坏结果的例子在生信中遍地都是。

但是目前生信分析对于这里木有固定的标准,素质稍微高的分析人员会稍微考虑下物种的特异性,调整下标准,更多的人就是根据固定的经验值去筛,TM的爱是啥是啥。

既然行业没有标准,说明这里确实不好订标准,甚至连固定的方法都没有。

小编又想起来得吐槽下,目前很多公司都在做三代全长转录组。大家在全长建库的时候更多的是参考高粱和玉米的转录本的比例。建库策略一般是:小于1K,1K-3K,3K-6K等等,比例也较为固定2:3:3。但是这里如果其之前测过转录组,或者存在近缘,是不是利用其数据简单的评估下,选择适合这个物种的建库策略呢。

吐槽回来,小编其实想说如果存在行业标准,我们应该按照标准来说,但是同时要兼顾物种的特异性。既然标准是经验,经验就有失效的时候。还有就是应该从问题出发,然后设定标准。

大于1是正选择,但是这个物种超级保守,是不是选择那些大于0.6的就可以了呢。

这里小编有三个想法

1、从问题本身出发,生物信息分析其实就是一个初步筛选的过程,这里标准的设定其实不是最重要的,哪怕你通过抓阄、扔鞋决定出来的基因,被证明有意义,都可以。这里研究的是生物问题,不是生信方法。

2、没有标准,是否可以从统计学分布出发。目前这些所谓的标准其实也是基于统计学分析而来的,当这个物种比较特殊的时候,我们应该从物种本身的分布上去研究。举例:在做正选择基因筛选的时候,整体没有大于1的,那这时我们应该绘制下这个物种基因受选择压力的整体分布图,看下位于右5%,10%的基因。这些所谓的离群的点,最有可能就是有意义的点。这样总比一刀切好的多。

3、  学生信的都弄过机器学习,这种问题完全可以机器模拟,学习搞定。将目前的所有的发布的数据整合下,构建下数据库,提取下特征,构建分类器,然后研究新的物种的时候,运行下这个分类器,让他给一个标准。这个绝对比你手一抖给的标准,可靠的多的多的多的多。

想起刚入学的时候,一个老师说的话,给大家安利下。

按照预定的方案和计划去实施,只能得到预定的结果,而无法实现超越。

  • 发表于 2017-04-07 09:48
  • 阅读 ( 2856 )
  • 分类:新闻资讯

1 条评论

请先 登录 后评论
不写代码的码农
SXR

44 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章