TCGA数据库

博士磕磕绊绊读到了第三年~ 终于进入了出成果的阶段了，也对生信这个学科建立了一些系统的理解，觉得应该做一些系统的梳理和记录了（虽然这个宏图大志从博一就有了但没有知识积累又懒。那么就从...

博士磕磕绊绊读到了第三年~ 终于进入了出成果的阶段了，也对生信这个学科建立了一些系统的理解，觉得应该做一些系统的梳理和记录了（虽然这个宏图大志从博一就有了但没有知识积累又懒。那么就从TCGA开始吧！从测序基础知识到数据标准化想到哪儿说哪儿。

测序理论部分：

1. 一张图解释DNA，RNA， mRNA

RNA和DNA是等价的，mRNA是剔除了内含子的RNA。

其他概念：

基因：产生一条多肽链或功能RNA 所需的全部核苷酸序列 == 具有遗传效应的基本DNA单位

转录本：一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA

read：每个测序反应得到的序列为一个“read”

文库：约等于全基因组

引申：

基因与蛋白质的对应关系 --> 多对多

- 真核生物基因可变剪接 可造成 一个基因表达出多个蛋白

- 对于多亚基构成的寡聚蛋白，每种亚基由一个基因编码，一个完整的蛋白是由不同基因表达而来。

2. RNA-Seq原理

不谈测序细节，核心是：RNA-Seq测的是mRNA。

3. RNA-Seq的两种偏差：

长度偏差-基因层面：相同表达丰度（量）的转录本，由于基因长度的差异，导致获得的read数不同。

深度偏差-样本层面：由于测序文库的大小差异造成。同一转录本，深度越深，read数越多。（深度：10* -> 测序了十次全基因组）

***标准化丰度计算方法：

Read count：测序获得的原始数据

长度偏差导致不同外显子的丰度无法对比，深度偏差导致不同样本之间无法对比

RPKM/FPKM：Read.Per.Kilobase.Million千碱基转录每百万次映射的read/fragments数

公式：read数*10的9次方 / 总read数*基因长度

理论上可以弥补read的缺点，消除两方面差异。但异议很多。如，一个外显子转录几次？

TPM： Transcripts.Per.Million千碱基转录每百万次映射的transcript数，不知道为啥不叫TPKM。。。。

公式：（1）P =比对到gene的read数/gene长度 -> 按长度对每个readcount标准化

(2) TPM = Pi / sum(Pi)

首先消除长度偏差，再消除样本偏差。但特殊情况下，如某突变体造成整体影响时，难以找出差异。

结论：

一般情况下，TPM是比RPKM更合适的选择，因为其均值是恒定的。除此之外还有很多其他的丰度标准化方法，如house-keeping, spike-in, CPM....

更多的FPKM、TPM的论述与比较百度一下就很多，老问题了。

4. FPKM转TPM

由于TCGA提供的数据是FPKM标准化过的，因此需要将其转换为TPM版本。

R：
fpkmToTpm <- function(fpkm)
{
    exp(log(fpkm) - log(sum(fpkm)) + log(1e6))
}

python版本

5。随访资料

待续

0 条评论