你的这个ID是被Excel自动转换后的日期(1-Mar 和2-Mar) ,无法还原你原来的ID,你用置入的方式打开这个文件,再检查一下是否是这样的,理论上来说不会出现重复的ID,基本的逻辑是这样的
1、一个探针对应的是一个基因的话,保留表达水平,将探针换成基因
2、多个探针对应一个基因的话,表达水平根据这几个探针的表达水平计算得来,软件右侧可以设置,中位数,均值,最大值 都可以
以GSE21815为例,
第一:在GEO上下载的matrix 直接为矩阵文件,但里面只有探针号,没有基因符号。故后期又找到相应GPL6480的注释文件,将基因符号放到矩阵文件中,发现个问题:如上图所示:基因符号有重复,但是后方的探针号及表达数量缺不一样。。这是什么原因,以及后续这些数据该怎么处理?
第二:经生信人小工具下载 minimalli family这个文件,经GEO芯片转换器转换后得到的矩阵数据与上面的矩阵数据相比较,发现:生信人出来的矩阵数据经过了处理,即把重复基因去掉了。但是没有完全处理干净,就这个GSE21815号处理后的矩阵剩余2个重复基因未处理。
1-Mar 和2-Mar 是重复的,去除这2个后发现同直接在GEO中下载的矩阵数据去除重复值基本一致。但是还是发现个问题:
1.相同基因那行,探针号不同,后面的表达数量也不同。。那这么多相同的基因号留哪个,去除哪个?为什么?
2.2种方法处理矩阵得到的结果尽管基本相同,但是也有不同的,主要是基因表达数据量那里,有的相同,有的不同。如下图。。标红色的为直接在GEO下载的矩阵数据。标黄色的为经生信人工具处理过的矩阵数据。。两个数据前面、后面基本相同,为什么中间会存在一部分不同的数值? 既然大部分数据基本相同,那说明经处理的方式应该是一样的,那为什么会出现这种现象? 求大神指教?