GEO芯片数据转换器使用案例

以GEO芯片数据GSE14520为例: 首先从GEO下载GSE14520数据: 从图中可以看出共有488个样本,我们选择MINiML格式的数据(软件只支持该格式),下载完: 然后我们将该文件导入到软件中: 从图...

工具下载链接:https://www.shengxin.ren/article/222

以GEO芯片数据GSE14520为例:

首先从GEO下载GSE14520数据:

attachments-2017-08-FiAqJyyt598bc7ff2f78从图中可以看出共有488个样本,我们选择MINiML格式的数据(软件只支持该格式),下载完:attachments-2017-08-kciEDp0r598bc893ce0f

然后我们将该文件导入到软件中:

attachments-2017-08-1jBNPftB598bc8d2e89b

从图中可以看出,软件将该文件解析出来两个平台的数据GPL571和GPL3921,样本数与下载时页面显示一致,我们点击导出样本信息:

attachments-2017-08-zPcVfvKo598bc92a98b0

最终得到了SampleInfo.xls,打开文件看看如下:

attachments-2017-08-r4wlEzfF598bc97300a7

从图中可以看出我们成功的导出了样本的临床信息,主要表中的分号,分号分割的是多次随访,有些样本可能存在多次回访,所以该信息我们使用分号分割

下面我们导出样本数据矩阵,首先我们需要选择导出来的矩阵中是探针形式的还是genesymbol等其他ID形式的:

attachments-2017-08-5LY0KvBS598bc9f2a4be

如图,我们选择geneSymbol形式导出,下一步我们需要选择导出的数据列,这个例子中只有两列:Column1、Column2,从左侧的表中我们可以知道Column2是数据列,所以在step2中选择Column2,对于当多个探针对应一个基因是我们选择其中位数代表该基因的表达值,当然软件提供了三种方式,都可以选择,如下图:

attachments-2017-08-7IGKWG3C598bca583ad0

点击导出数据矩阵:

attachments-2017-08-ffao0suZ598bcaedc898这样我们就将这套GSE数据中的GPL571平台的43个样本的数据导出来了,使用Excel打开数据Merge_GPL571.expro.txt如下:

attachments-2017-08-2iuNgLIG598bcb5c1f29后续就可以拿 这个表做各种分析啦,妈妈再也不用但是GEO数据下载后探针对应问题啦


  • 发表于 2017-08-10 10:57
  • 阅读 ( 11562 )
  • 分类:软件工具

39 条评论

请先 登录 后评论
不写代码的码农
祝让飞

生物信息工程师

92 篇文章

作家榜 »

  1. 祝让飞 92 文章
  2. 刘永鑫 64 文章
  3. SXR 44 文章
  4. 张海伦 31 文章
  5. 爽儿 25 文章
  6. 生信分析流 24 文章
  7. 调研图 24 文章
  8. 生信菜鸟团 13 文章