RankComp包算法解析

数据准备: 1、表达矩阵,比如300个样本,20000个基因 2、表达矩阵分成癌症样本矩阵假设200个样本(C)和正常样本矩阵假设100个样本(E) 3、取正常样本矩阵E 4、取表达谱矩阵E中的任意基因g...

数据准备:

1、表达矩阵,比如300个样本,20000个基因

2、表达矩阵分成癌症样本矩阵假设200个样本(C)和正常样本矩阵假设100个样本(E)

3、取正常样本矩阵E

4、取表达谱矩阵E中的任意基因g,即对任意一个基因在各个样本中的表达水平减去其他19999个基因在各个样本的表达水平得到一个新的矩阵即:19999*100的矩阵(每一个基因都会对应有这样的一个矩阵M)

5、计算矩阵M中每一行中大于0的个数的比例QU,小于0的个数比例QD

6、定义一个阈值QT当QU大于QT对应的那行基因认为是UP的基因,当QD大于QT对应的行的基因为DOWN的基因

7、统计UP的基因个数NU,DOWN的基因个数ND

8、取癌症样本矩阵C中对应的g的表达谱Cg及UP中基因的表达谱CUP

9、计算Cg减去CUP中每个基因的表达水平,得到一个新的矩阵CUM

10、计算CUM矩阵中每个样本对应的小于零的个数(如果是DOWN中基因的话,这里计算大于零的个数),即分析,在癌症样本中表达水平差异变反的基因个数,得到一个长度为200的向量(共有200个样本),CU200.

11、同理取DOWN中基因的表达谱CDP,重复8-10步,得到CD200。

12、构建这200个样本中每个样本S对应的这些基因上下调关系的列联表,具体方式如下:



正常样本中差异基因个数癌症样本S中差异基因个数
上调基因个数上调基因个数(NU)癌症样本中该样本S中上调基因个数(包括ND中的基因在癌症样本中变成上调的和NU中的基因在癌症样本中没变成下调的)

下调基因个数下调基因个数(ND)癌症样本中该样本S中下调基因个数(包括NU中的基因在癌症样本中变成下调的和ND中的基因在癌症样本中没变成上调的)





最终计算200个样本中每个样本的失调显著性p值( Fisher's exact test ),即该基因g在这200个癌症样本中的失调显著性p值。

13、回到第四步,计算下一个基因,依次类推计算每一个基因对应癌症样本中的差异失调显著性p值

14、使用FDR来矫正失调显著性p值

15、统计每个基因在癌症样本中的显著失调频次

16、卡一个阈值最终得到普遍差异失调的基因


  • 发表于 2018-05-01 19:27
  • 阅读 ( 4392 )
  • 分类:方案研究

你可能感兴趣的文章

相关问题

1 条评论

请先 登录 后评论
不写代码的码农
祝让飞

生物信息工程师

118 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章