RankComp包算法解析

数据准备： 1、表达矩阵，比如300个样本，20000个基因 2、表达矩阵分成癌症样本矩阵假设200个样本（C）和正常样本矩阵假设100个样本(E) 3、取正常样本矩阵E 4、取表达谱矩阵E中的任意基因g...

数据准备：

1、表达矩阵，比如300个样本，20000个基因

2、表达矩阵分成癌症样本矩阵假设200个样本（C）和正常样本矩阵假设100个样本(E)

3、取正常样本矩阵E

4、取表达谱矩阵E中的任意基因g，即对任意一个基因在各个样本中的表达水平减去其他19999个基因在各个样本的表达水平得到一个新的矩阵即：19999*100的矩阵（每一个基因都会对应有这样的一个矩阵M）

5、计算矩阵M中每一行中大于0的个数的比例QU，小于0的个数比例QD

6、定义一个阈值QT当QU大于QT对应的那行基因认为是UP的基因，当QD大于QT对应的行的基因为DOWN的基因

7、统计UP的基因个数NU,DOWN的基因个数ND

8、取癌症样本矩阵C中对应的g的表达谱Cg及UP中基因的表达谱CUP

9、计算Cg减去CUP中每个基因的表达水平，得到一个新的矩阵CUM

10、计算CUM矩阵中每个样本对应的小于零的个数（如果是DOWN中基因的话，这里计算大于零的个数），即分析，在癌症样本中表达水平差异变反的基因个数，得到一个长度为200的向量（共有200个样本），CU200.

11、同理取DOWN中基因的表达谱CDP,重复8-10步，得到CD200。

12、构建这200个样本中每个样本S对应的这些基因上下调关系的列联表，具体方式如下：

	正常样本中差异基因个数	癌症样本S中差异基因个数
上调基因个数	上调基因个数（NU）	癌症样本中该样本S中上调基因个数(包括ND中的基因在癌症样本中变成上调的和NU中的基因在癌症样本中没变成下调的)
下调基因个数	下调基因个数（ND）	癌症样本中该样本S中下调基因个数(包括NU中的基因在癌症样本中变成下调的和ND中的基因在癌症样本中没变成上调的)

最终计算200个样本中每个样本的失调显著性p值（ Fisher's exact test ），即该基因g在这200个癌症样本中的失调显著性p值。

13、回到第四步，计算下一个基因，依次类推计算每一个基因对应癌症样本中的差异失调显著性p值

14、使用FDR来矫正失调显著性p值

15、统计每个基因在癌症样本中的显著失调频次

16、卡一个阈值最终得到普遍差异失调的基因

1 条评论