TCGA数据库

博士磕磕绊绊读到了第三年~ 终于进入了出成果的阶段了,也对生信这个学科建立了一些系统的理解,觉得应该做一些系统的梳理和记录了(虽然这个宏图大志从博一就有了但没有知识积累又懒。那么就从...

博士磕磕绊绊读到了第三年~ 终于进入了出成果的阶段了,也对生信这个学科建立了一些系统的理解,觉得应该做一些系统的梳理和记录了(虽然这个宏图大志从博一就有了但没有知识积累又懒。那么就从TCGA开始吧!从测序基础知识到数据标准化想到哪儿说哪儿。


测序理论部分

1. 一张图解释DNA,RNA, mRNA

RNA和DNA是等价的,mRNA是剔除了内含子的RNA。


其他概念:

基因:产生 一条多肽链或功能RNA 所需的 全部核苷酸序列  == 具有遗传效应的基本DNA单位

转录本:一条基因 通过转录形成的 一种或多种 可供编码蛋白质的 成熟的mRNA

read:每个测序反应得到的序列为一个“read”

文库:约等于全基因组


引申:

基因与蛋白质的对应关系 --> 多对多

- 真核生物 基因可变剪接 可造成 一个基因表达出多个蛋白

- 对于多亚基构成的寡聚蛋白,每种亚基由一个基因编码,一个完整的蛋白是由不同基因表达而来


2. RNA-Seq原理

watermark,image_d2F0ZXIvYmFpa2U4MA==,g_7,xp_5,yp_5

不谈测序细节,核心是:RNA-Seq测的是mRNA。


3. RNA-Seq的两种偏差:

长度偏差-基因层面:相同表达丰度(量)的转录本,由于基因长度的差异,导致获得的read数不同。

深度偏差-样本层面:由于测序文库的大小差异造成。同一转录本,深度越深,read数越多。(深度:10* -> 测序了十次全基因组)


***标准化丰度计算方法

Read count:测序获得的原始数据

长度偏差导致不同外显子的丰度无法对比,深度偏差导致不同样本之间无法对比

 

RPKM/FPKMRead.Per.Kilobase.Million千碱基转录每百万次映射的read/fragments

公式:read*109次方 / read*基因长度

理论上可以弥补read的缺点,消除两方面差异。但异议很多。如,一个外显子转录几次?

 

TPM Transcripts.Per.Million千碱基转录每百万次映射的transcript数,不知道为啥不叫TPKM。。。。

公式:(1)P =比对到gene的read数/gene长度 -> 按长度对每个readcount标准化

             (2)  TPM = Pi / sum(Pi) 

首先消除长度偏差,再消除样本偏差。但特殊情况下,如某突变体造成整体影响时,难以找出差异。

结论:

一般情况下,TPM是比RPKM更合适的选择,因为其均值是恒定的。除此之外还有很多其他的丰度标准化方法,如house-keeping, spike-in, CPM....

更多的FPKM、TPM的论述与比较百度一下就很多,老问题了。


4. FPKM转TPM 

 由于TCGA提供的数据是FPKM标准化过的,因此需要将其转换为TPM版本。

R:
fpkmToTpm <- function(fpkm)
{
    exp(log(fpkm) - log(sum(fpkm)) + log(1e6))
}


python版本


5。随访资料

https://shengxin.ren/article/96



待续

  • 发表于 2021-01-19 01:02
  • 阅读 ( 235 )
  • 分类:软件工具

0 条评论

请先 登录 后评论
不写代码的码农
cyn-111

1 篇文章

作家榜 »

  1. 祝让飞 117 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. 生信分析流 52 文章
  5. SXR 44 文章
  6. 张海伦 31 文章
  7. 爽儿 25 文章
  8. shengxinbaodian 16 文章