Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及

EXCEL是常用的查看表格的工具,提供了很好的数据筛选、绘图等功能,不少基因表达数据也会在EXCEL中打开查看、筛选和排序。还有 3 个超赞的 EXCEL 插件,让你 5 分钟从小白变大神。但是EXCEL也

EXCEL是常用的查看表格的工具,提供了很好的数据筛选、绘图等功能,不少基因表达数据也会在EXCEL中打开查看、筛选和排序。还有 3 个超赞的 EXCEL 插件,让你 5 分钟从小白变大神

但是EXCEL也会出现比较尴尬的事情,如基因名字的转换。比如gene symbols SEPT2 (Septin 2)、MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase], Oct4 (Pou5f1) 会被转为2-Sep1-Mar4-Oct

RIKEN 识别符因为E的存在会被识别为科学计数法,如2310009E13转为2.31E+13。而且不可恢复


这一事情在2014年的BMC Bioinformatics上就有报道。下图所示12个月份开头的基因名字都不可逆的转换为了日期。不少都是在胚胎干细胞或癌症中很重要的基因。


这些数据不只是存在于Excel表中,还威胁到了公共数据库,如NCBI LocusLink。


2016年Genome biology对2005-2015期间发表在18个杂志的文章附表中基因名字做了分析,发现Nature中有附表的文章里面,有30%以上出现了EXCEL引起的基因名字转换错误,受影响的文章有74篇,影响的基因1375个。

出现基因名字转换错误的附表错误的文章逐年增加,这一定程度上也是因为大规模基因研究的迅速开展使得总上传的附件数增多引起的。

并且作者还做了相关性分析,影响因子越高,受影响的基因列表比例越大。这可能是因为高影响力的文章涉及了更多的数据集。

BMC bioinformatics虽然首先提出这个问题,后续受影响比例也比较大,有政策,无实施。

为此,Eric A. Welsh特意开发了一款工具阻止此类转换,提供了在线版本,Excel插件,Perl脚本和Galaxy访问接口,为了大家的使用也是煞费苦心。软件发布在Github上,https://github.com/pstew/escape_excel,文章发表在Plos One

Excel插件也很好安装,下载解压,escape_excel-master\release\2017-06-28\EscapeExcelAddin目录中有setupEscapeExcel.exe, 双击安装即可。

这个插件可以解决以下几种问题,解决方式是在原字符串前加上=,并用"括起。(只在最开始加个'看上去也可以解决问题,没细看作者为啥采用相对复杂的方式)。但是转换后的数据在使用EXCEL的函数时需要注意匹配方式的变化。

常见受影响基因列表

  • 2310009E13

  • FEB2

  • MAR1

  • DEC1

  • 2310009E13

  • OCT4

  • APR1

  • SEP2

  • SEP-1

  • FEB1-FEB11

  • MARCH1-MARCH11

  • SEPT1-SEPT14

生信分析中经常会做的根据基因名字提取序列、表达量和注释,都会受到这些名字转换的影响,也会受到另外一个常见的换行符的影响^M,所以做分析需要谨慎、谨慎、再谨慎。一定多检查结果是否前后一致。

除了要求细心之外,还要求有一定的程序基础,可以从多个角度查看、验证和解决问题,保证一致性。

市面上Linux和Python的课程很多,但真正面向生物数据和生物信息分析的不多。近来频频收到不少朋友说看了我们的生信程序视频课开窍了、入门了,对程序基础的应用理解更深了,我们的课程在http://bioinfo.ke.qq.com/可以获取,欢迎更多朋友观看。

近期课程


  1. https://www.nature.com/articles/ng.3690

  2. http://blogs.nature.com/naturejobs/2017/02/27/escape-gene-name-mangling-with-escape-excel/

  3. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-5-80

  4. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0185207

  5. http://www.theallium.com/biology/scientific-community-capitulates-microsoft-officially-changes-gene-names-dates/

更多阅读

画图三字经 生信视频 生信系列教程 

心得体会 癌症数据库 Linux Python 

高通量分析 在线画图 测序历史 超级增强子

培训视频 PPT EXCEL 文章写作 ggplot2

海哥组学 可视化套路 基因组浏览器

色彩搭配 图形排版 互作网络

后台回复“生信宝典福利第一波”获取教程合集

转自:生信宝典
  • 发表于 2018-10-26 17:58
  • 阅读 ( 3009 )
  • 分类:软件工具

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
不写代码的码农
shengxinbaodian

16 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章