看教程不够直观,那就看视频吧! >>点击加载视频
在做GEO数据挖掘的时候经常会遇到注释信息很老的芯片平台,或者有些芯片平台压根就没提供基因的注释信息,此时要使用这样的芯片着实不好办,我今天就遇到这样的一个芯片平台https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL17586 这个平台的芯片提供了基因组位置和各种很不规则的注释信息,我的第一个想法是从这种不规则的注释信息中提取想要的基因ID,但是尝试之后发现并不太容易
从这些注释信息中我们可以看到 里面有探针比对到基因组上的位置信息,基于此我想我可以按照这些位置信息去找对应的基因,这样免去了从这些不规则的基因ID中提取的麻烦
首先我们可以看到这些基因组位置是基因组版本为hg19的位置,所以我们需要下载hg19的gtf文件,从里面可以知道哪些基因在基因组的哪些位置上,从而达到根据基因位置提取基因的目的,同时我们将这些探针的注释信息也下载下来。
我们去gencode上下载这些基因组注释信息
然后使用 基因注释工具 进行注释,导入基因注释工具如图
在软件右侧配置各种ID和染色体位置对应列等等信息,点击注释,稍作等待后注释完成
最终得到统一注释到ensg id的注释表
从中我们可以看到 该探针 落到了外显子、转录本、基因 等区域信息
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!