根据芯片平台提供的基因组位置来提取基因

在做GEO数据挖掘的时候经常会遇到注释信息很老的芯片平台,或者有些芯片平台压根就没提供基因的注释信息,此时要使用这样的芯片着实不好办,我今天就遇到这样的一个芯片平台https://www.ncbi.nl...

在做GEO数据挖掘的时候经常会遇到注释信息很老的芯片平台,或者有些芯片平台压根就没提供基因的注释信息,此时要使用这样的芯片着实不好办,我今天就遇到这样的一个芯片平台https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL17586 这个平台的芯片提供了基因组位置和各种很不规则的注释信息,我的第一个想法是从这种不规则的注释信息中提取想要的基因ID,但是尝试之后发现并不太容易

attachments-2018-09-uhawSm3u5b8c953b275e7.png

从这些注释信息中我们可以看到 里面有探针比对到基因组上的位置信息,基于此我想我可以按照这些位置信息去找对应的基因,这样免去了从这些不规则的基因ID中提取的麻烦

首先我们可以看到这些基因组位置是基因组版本为hg19的位置,所以我们需要下载hg19的gtf文件,从里面可以知道哪些基因在基因组的哪些位置上,从而达到根据基因位置提取基因的目的,同时我们将这些探针的注释信息也下载下来。

attachments-2018-09-1YaJz1uE5b8c96438e8e6.png我们去gencode上下载这些基因组注释信息attachments-2018-09-XwSrzySn5b8c96ab1b8c5.png

然后使用 基因注释工具 进行注释,导入基因注释工具如图

attachments-2018-09-4Bm78r5E5b8c96fd3a55d.png

在软件右侧配置各种ID和染色体位置对应列等等信息,点击注释,稍作等待后注释完成

最终得到统一注释到ensg id的注释表

attachments-2018-09-aniaHBbX5b8c9c32f2b04.png

从中我们可以看到 该探针 落到了外显子、转录本、基因 等区域信息





  • 发表于 2018-09-03 10:09
  • 阅读 ( 11810 )
  • 分类:软件工具

12 条评论

请先 登录 后评论
不写代码的码农
祝让飞

生物信息工程师

118 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章