一文解决各种ID转化成Gene Symbol

为了解决生信小白的困难,我们公司研发的一个网页板的小工具,里面内置了包括Ensembl、GPL570等常用的注释平台文件,你只需要上传自己的表达谱矩阵,点击鼠标即可完成各种ID之间的转换,非常方便。这么好的平台,亲们准备好了吗,和我一起去体验吧。


01

研究背景


很多小白在学习生信时,经常被各种基因ID,探针ID弄糊涂,和小编当时在学习生信时差不多,今天小编来简要的说说他们之间是怎么回事。


所谓的各种探针ID,是各个芯片制造厂商在设计芯片序列的时,将人类基因组上的编码序列设定为特定的符号标识。同样,基因ID也是各个数据库在存储基因时,给基因一个特定的符号标识。以上所提的基因ID或探针ID只适应于某个特定的数据库或某个特定的芯片制造厂商,不具有通用性。


为了解决这个问题,人类基因组组织基因命名委员会(HGNC)对基因进行命名描述的一个缩写标识符,即平时所见到的Gene Symbol,这些Gene Symbol都是唯一的[1]。所以,平时,在适用于芯片数据和表达普数据时,第一步是将芯片数据或者表达普数据进行注释,所谓的注释,就是将各种ID转化为Gene symbol


但是,对于初学者来说,将一个表达矩阵注释出来,还是一个不小的困难,拿RNA-seq表达谱探针ID注释过程来说把,并不是每个探针ID都对应的一个Gene symbol,因为同一基因会对应不同的转录本,而且基因会出现每个别碱基的突变。所以在注释时,往往需要很复杂的计算过程,如对一个探针对应对多个基因的探针,这样的探针应该删除,对于多个探针对应一个基因的探针,应该将这几个探针的表达值进行合并(如去中值,均值)等等。这些往往需要很强的编程能力和逻辑思维,但是对于生信小白来说,这是个挑战。


为了解决生信小白的困难,我们公司研发的一个网页板的小工具,里面内置了包括EnsemblGPL570等常用的注释平台文件,你只需要上传自己的表达谱矩阵,点击鼠标即可完成各种ID之间的转换,非常方便。这么好的平台,亲们准备好了吗,和我一起去体验吧。



02


使用方法



1.打开网页:
http://sangerbox.com/IdConversion


2.输入文件格式:

 

attachments-2020-05-4HCAgDOE5ecc82b546475.png


3.参数设置,对于TCHA数据中的,Ensembol ID 平台之处

 

attachments-2020-05-bLrhALR55ecc82bf56b65.png


4.查看任务是否完成:点击到个人中心,任务中心,查看任务是否完成,如下图所示。

 

attachments-2020-05-qHq2pSYe5ecc82ca894ab.png


5.输出结果文件,如下图所示

 

attachments-2020-05-pJOSWSGs5ecc82d45ffec.png


[1] Shows TB, McAlpine PJ, Boucheix C, Collins FS, Conneally PM, Frézal J, et al. (1987). "Guidelines for human gene nomenclature. An international system for human gene nomenclature (ISGN, 1987)" Cytogenetics and Cell Genetics. 46 (1–4): 11–28.



具体指引详见:


attachments-2020-05-4uCL0XLI5ecc82ff609f1.png

  • 发表于 2020-05-26 10:48
  • 阅读 ( 7499 )
  • 分类:软件工具

0 条评论

请先 登录 后评论
不写代码的码农
柚子

91 篇文章

作家榜 »

  1. 祝让飞 119 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章