3 在GEO中下载matrix那个文件,经GPL注释修改后的矩阵数据与使用该网站GEO数据转换包转换的结果对比后发现有些结果一样, 有些不一样,求原因

以GSE21815为例,attachments-2018-05-twMAcVj75b028d1aa8335.

第一:在GEO上下载的matrix 直接为矩阵文件,但里面只有探针号,没有基因符号。故后期又找到相应GPL6480的注释文件,将基因符号放到矩阵文件中,发现个问题:如上图所示:基因符号有重复,但是后方的探针号及表达数量缺不一样。。这是什么原因,以及后续这些数据该怎么处理?

第二:经生信人小工具下载 minimalli family这个文件,经GEO芯片转换器转换后得到的矩阵数据与上面的矩阵数据相比较,发现:生信人出来的矩阵数据经过了处理,即把重复基因去掉了。但是没有完全处理干净,就这个GSE21815号处理后的矩阵剩余2个重复基因未处理。

attachments-2018-05-SJHkexpV5b028f1aa5c7a.

1-Mar  和2-Mar 是重复的,去除这2个后发现同直接在GEO中下载的矩阵数据去除重复值基本一致。但是还是发现个问题:

1.相同基因那行,探针号不同,后面的表达数量也不同。。那这么多相同的基因号留哪个,去除哪个?为什么?

2.2种方法处理矩阵得到的结果尽管基本相同,但是也有不同的,主要是基因表达数据量那里,有的相同,有的不同。如下图。。标红色的为直接在GEO下载的矩阵数据。标黄色的为经生信人工具处理过的矩阵数据。。两个数据前面、后面基本相同,为什么中间会存在一部分不同的数值?   既然大部分数据基本相同,那说明经处理的方式应该是一样的,那为什么会出现这种现象?   求大神指教?

attachments-2018-05-qeVjtC3D5b02907a57673.

attachments-2018-05-3SvPjHHP5b0290984ee7a.

请先 登录 后评论

3 个回答

祝让飞 - 生物信息工程师

你的这个ID是被Excel自动转换后的日期(1-Mar  和2-Mar) ,无法还原你原来的ID,你用置入的方式打开这个文件,再检查一下是否是这样的,理论上来说不会出现重复的ID,基本的逻辑是这样的

1、一个探针对应的是一个基因的话,保留表达水平,将探针换成基因

2、多个探针对应一个基因的话,表达水平根据这几个探针的表达水平计算得来,软件右侧可以设置,中位数,均值,最大值 都可以

请先 登录 后评论
李邦灵 - 生信分析

芯片多个探针对应一个基因,一个探针对应多个基因,是正常的。分析的时候,需要做处理。通常可以取平均值,也可去最大值,差别不大。

请先 登录 后评论
XL

你好,想请教一下最终你用的哪种方法下载的数据分析呢?是不是还是得自己从网站上下载注释的比较可靠?

请先 登录 后评论
  • 3 关注
  • 0 收藏,9806 浏览
  • 李雅洁 提出于 2018-05-21 16:09

相似问题