如果要比较T vs NT某基因表达量的差异,应该用FPKM还是FPKM-UQ

查了一下午,还是不明白。很多人给出了官方的定义,但是并没有解释清楚FPKM和FPKM-UQ的本质区别到底是什么。比如官网的例子:

Sample 1: Gene A

  • Gene length: 3,000 bp
  • 1,000 reads mapped to Gene A
  • 1,000,000 reads mapped to all protein-coding regions
  • Read count in Sample 1 for 75th percentile gene: 2,000

FPKM for Gene A = (1,000)*(10^9)/[(3,000)*(1,000,000)] = 333.33

FPKM-UQ for Gene A = (1,000)*(10^9)/[(3,000)*(2,000)] = 166,666.67

按照流程图的话FPKM-UQ是在FPKM基础上算出来的,感觉像是更“好”的指标。

所以把reads mapped to all protein-coding regions 换成 reads for 75th percentile genes有什么好处或坏处吗?只看定义的话对小白来说完全理解不了这两者本质上有什么区别。什么情况下需要用FPKM?什么情况下需要用FPKM-UQ?

如果只是比较肿瘤和正常组织间某个基因表达量差异的话,应该用哪一个?

谢谢!

请先 登录 后评论

1 个回答

祝让飞 - 生物信息工程师

简单的理解:

1、FPKM 是原始的

2、FPKM-UQ 是使用上四分位数(75%)来对数据做标准化

也就是FPKM-UQ是做了矫正的,矫正方法如下:

每个基因的FPKM的计算是:

基因A的FPKM=比对到基因A上的reads数目*10^9/(基因长度*比对到所有基因的reads的总和)

那么FPKM-UQ的计算方式与FPKM的不同之处在于没有除以“比对到所有基因的reads的总和",请仔细看:

基因A的FPKM-UQ=比对到基因A上的reads数目*10^9/(基因长度*上四分位数处的基因的reads的数目)

重点理解:上四分位数处的基因的reads的数目

每个基因都有 比对到该基因上的reads数目,那么对这些基因对应的“比对到该基因上的reads数目”进行从小到大排序,选择第75%个基因对应的“比对到该基因上的reads数目”作为“上四分位数处的基因的reads的数目”

最后申明:你用哪个都行,FPKM-UQ相当于做了组间标准化







请先 登录 后评论