首先,你下载的是哪种数据分为count、FPKM和FPKM-UQ三种,count数据是没有经过任何处理,只是测序数据比对到转录本上的技术,FPKM和FPKM-UQ是经过处理,二者的计算公式不同,公式在谷歌上就能搜到,通常用FPKM就可以;里面的数据就是这个样本在这个基因上的表达量,就是表达情况;做相关性分析可以直接用这个数据,也可以进行转化;取log是标准化的一种方式,目的将数据降维到同一数量级;相关性分析的话你可以谷歌一下,看看有没有相关的代码。
各位老师,请教几个问题:
1.我用sangerbox下载TCGA的mRNA数据,里面很多数值是什么?准确的说怎么理解这个数值?分析两个基因的相关性,是直接用这个数值还是需要将这些数值做对数转换吗?
2.我看有的数据库自己做的expression levels是log(FPKM+0.001),这里是什么意思?如果做两个基因的mRNA水平在下载的这个数据库里面的相关性具体怎么分析?
谢谢各位老师了。