如果要比较T vs NT某基因表达量的差异，应该用FPKM还是FPKM-UQ

查了一下午，还是不明白。很多人给出了官方的定义，但是并没有解释清楚FPKM和FPKM-UQ的本质区别到底是什么。比如官网的例子：

Sample 1: Gene A

FPKM for Gene A = (1,000)*(10^9)/[(3,000)*(1,000,000)] = 333.33

FPKM-UQ for Gene A = (1,000)*(10^9)/[(3,000)*(2,000)] = 166,666.67

按照流程图的话FPKM-UQ是在FPKM基础上算出来的，感觉像是更“好”的指标。

所以把reads mapped to all protein-coding regions 换成 reads for 75th percentile genes有什么好处或坏处吗？只看定义的话对小白来说完全理解不了这两者本质上有什么区别。什么情况下需要用FPKM?什么情况下需要用FPKM-UQ?

如果只是比较肿瘤和正常组织间某个基因表达量差异的话，应该用哪一个？

谢谢！

默认排序时间排序

1 个回答

祝让飞 - 生物信息工程师 2018-02-22 22:35

简单的理解：

1、FPKM 是原始的

2、FPKM-UQ 是使用上四分位数（75%）来对数据做标准化

也就是FPKM-UQ是做了矫正的，矫正方法如下：

每个基因的FPKM的计算是：

基因A的FPKM=比对到基因A上的reads数目*10^9/(基因长度*比对到所有基因的reads的总和)

那么FPKM-UQ的计算方式与FPKM的不同之处在于没有除以“比对到所有基因的reads的总和",请仔细看：

基因A的FPKM-UQ=比对到基因A上的reads数目*10^9/(基因长度*上四分位数处的基因的reads的数目)

重点理解：上四分位数处的基因的reads的数目

每个基因都有比对到该基因上的reads数目,那么对这些基因对应的“比对到该基因上的reads数目”进行从小到大排序，选择第75%个基因对应的“比对到该基因上的reads数目”作为“上四分位数处的基因的reads的数目”

最后申明：你用哪个都行，FPKM-UQ相当于做了组间标准化