看教程不够直观,那就看视频吧! >>点击加载视频
博士磕磕绊绊读到了第三年~ 终于进入了出成果的阶段了,也对生信这个学科建立了一些系统的理解,觉得应该做一些系统的梳理和记录了(虽然这个宏图大志从博一就有了但没有知识积累又懒。那么就从TCGA开始吧!从测序基础知识到数据标准化想到哪儿说哪儿。
测序理论部分:
1. 一张图解释DNA,RNA, mRNA
RNA和DNA是等价的,mRNA是剔除了内含子的RNA。
其他概念:
基因:产生 一条多肽链或功能RNA 所需的 全部核苷酸序列 == 具有遗传效应的基本DNA单位
转录本:一条基因 通过转录形成的 一种或多种 可供编码蛋白质的 成熟的mRNA
read:每个测序反应得到的序列为一个“read”
文库:约等于全基因组
引申:
基因与蛋白质的对应关系 --> 多对多
- 真核生物 基因可变剪接 可造成 一个基因表达出多个蛋白 - 对于多亚基构成的寡聚蛋白,每种亚基由一个基因编码,一个完整的蛋白是由不同基因表达而来。 |
2. RNA-Seq原理
不谈测序细节,核心是:RNA-Seq测的是mRNA。
3. RNA-Seq的两种偏差:
长度偏差-基因层面:相同表达丰度(量)的转录本,由于基因长度的差异,导致获得的read数不同。
深度偏差-样本层面:由于测序文库的大小差异造成。同一转录本,深度越深,read数越多。(深度:10* -> 测序了十次全基因组)
***标准化丰度计算方法:
Read count:测序获得的原始数据
长度偏差导致不同外显子的丰度无法对比,深度偏差导致不同样本之间无法对比
RPKM/FPKM:Read.Per.Kilobase.Million千碱基转录每百万次映射的read/fragments数
公式:read数*10的9次方 / 总read数*基因长度
理论上可以弥补read的缺点,消除两方面差异。但异议很多。如,一个外显子转录几次?
TPM: Transcripts.Per.Million千碱基转录每百万次映射的transcript数,不知道为啥不叫TPKM。。。。
公式:(1)P =比对到gene的read数/gene长度 -> 按长度对每个readcount标准化
(2) TPM = Pi / sum(Pi)
首先消除长度偏差,再消除样本偏差。但特殊情况下,如某突变体造成整体影响时,难以找出差异。
结论:
一般情况下,TPM是比RPKM更合适的选择,因为其均值是恒定的。除此之外还有很多其他的丰度标准化方法,如house-keeping, spike-in, CPM....
更多的FPKM、TPM的论述与比较百度一下就很多,老问题了。
4. FPKM转TPM
由于TCGA提供的数据是FPKM标准化过的,因此需要将其转换为TPM版本。
R: fpkmToTpm <- function(fpkm) { exp(log(fpkm) - log(sum(fpkm)) + log(1e6)) }
python版本
5。随访资料
https://shengxin.ren/article/96
待续
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!