如何处理TCGA count矩阵中重复的基因名,想让基因名唯一,求代码。
第一次用TCGA,看了网上很多教程,自己尝试却不是很顺利,比如下载了8 cases 文件,但是对照组怎么找啊,每个case的文件名都是一长串数字字母组合,TCGA的样本名又是从哪拿到的呢?
我对比了TCGA与GEO数据,TCGA我用的是FPKM,比如数据有0.01,也有1,有10,但是GEO 标准化后基本在0到20之间,这基因间的倍数就不一致,那我用TCGA建立的预测风险值COX回归模型的系数肯定不适用于GEO啊,请问是我思路错了还是方法...
生信盒子TCGA下载工具不能下载GEO数据,输入GSE编号,点击检索没有反应。
按网上要求进行数据下载,但运行gdc-client download -m gdc_manifest_20180605_084918.txt以后报错出不来结果是怎么回事呢?
已解决
我试了你们给的肝癌的例子用GSE编号搜索,依然搜不到,我想问一下你们GSEA的数据是怎么搜到的
1.请问使用TCGA下载工具下载miRNA isoform表达谱数据,合并后的merge.txt中的表达值还需要进行标准化吗?(目的是想筛选差异表达的miRNA)2.想请教是如何合并从TCGA上下载的文件得到miRNA成熟体的表达值的?
TCGA数据表达水平分析的图,单位都是表达水平×10-6 这是我下载的TCGA RNA seq数据,这些数字不是×10-6啊?还是要经过什么换算,求解答
因为卵巢癌没有癌旁,所以如果想用小工具分析差异表达的话应该怎么分组?