看教程不够直观,那就看视频吧! >>点击加载视频
在新版数据中TCGA的RNAseq数据主要提供了三种数据下载,FPKM,FPKM-UQ,Counts,如果要用edgR等筛选差异的话会下载使用Counts数据,但是笔者在过去的数据分析中发现TCGA数据使用edgR等软件筛选差异基因并不理想,细思主要有两方面原因:
一、肿瘤数据本身异质性很高
二、正常样本严重偏少
基于此笔者几乎很少使用edgR等软件来筛选差异了,那么就很少下载Counts数据了,所以大多数情况下都是用RPKM,但是RPKM数据本身也是饱受诟病,像cbioportal使用的是RSEM软件做的定量即TPM,在老版TCGA中也可以直接下载到这些数据,那么新版如何得到这样的数据呢,简单的办法是从FPKM转TPM
怎么转?
首先我们需要了解一下FPKM和TPM的公式
FPKM: Fragments Per Kilobase of exon model per Million mapped fragments 即每千个碱基的转录每百万映射读取的fragments
TPM:TranscriptsPerKilobase of exonmodel per Million mapped reads 即每千个碱基的转录每百万映射读取的Transcripts
他们的计算公式如下:
FPKM= total exon reads/ (mapped reads (Millions) * exon length(KB))
total exon reads:某个样本mapping到特定基因的外显子上的所有的reads
mapped reads (Millions) :某个样本的所有reads总和
exon length(KB):某个基因的长度(外显子的长度的总和,以KB为单位)
TPMi=(Ni/Li)*1000000/sum(N0/L0+……..+ Nm/Lm)
Ni:mapping到基因i上的read数; Li:基因i的外显子长度的总和;m:为所有基因的总数
从以上公式我们可以进一步推导如下:
1、FPKMi*(mapped reads (Millions)= total exon reads/ (mapped reads (Millions) * exon length(KB))
2、total exon reads/ (mapped reads (Millions) * exon length(KB))=(Ni/Li)
3、FPKMi*(mapped reads (Millions)=(Ni/Li)
4、TPMi=FPKMi*(mapped reads (Millions)*1000000/(N0/L0+……..+ Nm/Lm)
5、TPMi=FPKMi*(mapped reads (Millions)*1000000/(FPKM0*(mapped reads (Millions)+……..+ FPKMm*(mapped reads (Millions))
6、TPMi=FPKMi*1000000/(FPKM0+……..+ FPKMm)
最终我们得到了TPM和FPKM的转换公公式,从公式里可以看到TPM就是等于该基因的FPKM占所有基因的FPKM的总和的比例乘以一百万,那么值得注意的是每个样本所有基因的TPM加和就等于一百万了,这很类似样本间标准化
最后你下载的TCGA FPKM数据转换TPM就不会懵逼了吧
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!