一般情况下 先看已有数据有哪些,课题设计方案是什么,才选择数据去分析验证想法的,并不是说人家做了就不能再做,角度不同做法不一样的
以文章为例,直入主题。来自Oncotarget的你,PMID: 29050278。整篇文章最重要的一步就是选择了GSE54129这个数据集,后续的分析都不难。很难想象一个包含132个胃癌样本的数据集居然没有做过差异分析,GO和KEGG,就这样安安静静地待在那里。所以这种存在但是无人分析过的数据集是怎么找到的呢?一个一个人工筛的吗?
还有一些文章会选三个数据集,然后去差异表达的交集继续分析。而且文章中永远也不会提一笔这三个数据集是根据什么选的。加入某文章用的是A,B,C数据集,那是不是说我用A,F,G或者B,J,L做同样的分析也可以发文章(前提是结果不同)?
包括论坛上的一些帖子也没有提及GEO数据集是如何选取的。感谢赐教。