两种TCGA数据 RNAseq - HTSeq（Counts）和RNAseq - IlluminaHiSeq（RSEM）的区别

在https://xenabrowser.net/中我发现了两种格式不太一样的TCGA数据

以luad数据集举例

第一种是

dataset: gene expression RNAseq - HTSeq - Counts

这个有60,484行，每一行似乎是一个ENSG基因编码，是count数据，类似的还有FPKM和FPKM-UQ

另外一种是

dataset: gene expression RNAseq - IlluminaHiSeq

这个只有20,531行，似乎是用RSEM处理过的数据，每行是基因名称

我不太了解它们两个的区别和关系，适合在何种情况下使用（差异分析很多需要count数据这个我知道），事实上我现在需要重构癌症模型，不知道该使用哪一种，希望各位不吝赐教，我对于生物概念不是特别了解，下面附上数据的网址：

默认排序时间排序

1 个回答

祝让飞 - 生物信息工程师 2018-11-21 10:02

UCSC上的数据是经过处理的，而TCGA上的是最原始的。

60,484行，每一行似乎是一个ENSG基因编码：这是60484个转录本，UCSC上的两万来个是编码基因的表达谱，是从这60484个转录本里面提取出来的子集。

RSEM处理过的数据：这是TCGA老版本使用的RNASeq数据的定量方法，这里的数据也是来源于老版本的，新版TCGA统一使用Counts、FPKM来定量，故有一些差别，两种数据都可以用，看你自己的需求。