看教程不够直观,那就看视频吧! >>点击加载视频
数据准备:
1、表达矩阵,比如300个样本,20000个基因
2、表达矩阵分成癌症样本矩阵假设200个样本(C)和正常样本矩阵假设100个样本(E)
3、取正常样本矩阵E
4、取表达谱矩阵E中的任意基因g,即对任意一个基因在各个样本中的表达水平减去其他19999个基因在各个样本的表达水平得到一个新的矩阵即:19999*100的矩阵(每一个基因都会对应有这样的一个矩阵M)
5、计算矩阵M中每一行中大于0的个数的比例QU,小于0的个数比例QD
6、定义一个阈值QT当QU大于QT对应的那行基因认为是UP的基因,当QD大于QT对应的行的基因为DOWN的基因
7、统计UP的基因个数NU,DOWN的基因个数ND
8、取癌症样本矩阵C中对应的g的表达谱Cg及UP中基因的表达谱CUP
9、计算Cg减去CUP中每个基因的表达水平,得到一个新的矩阵CUM
10、计算CUM矩阵中每个样本对应的小于零的个数(如果是DOWN中基因的话,这里计算大于零的个数),即分析,在癌症样本中表达水平差异变反的基因个数,得到一个长度为200的向量(共有200个样本),CU200.
11、同理取DOWN中基因的表达谱CDP,重复8-10步,得到CD200。
12、构建这200个样本中每个样本S对应的这些基因上下调关系的列联表,具体方式如下:
正常样本中差异基因个数 | 癌症样本S中差异基因个数 | ||
上调基因个数 | 上调基因个数(NU) | 癌症样本中该样本S中上调基因个数(包括ND中的基因在癌症样本中变成上调的和NU中的基因在癌症样本中没变成下调的) | |
下调基因个数 | 下调基因个数(ND) | 癌症样本中该样本S中下调基因个数(包括NU中的基因在癌症样本中变成下调的和ND中的基因在癌症样本中没变成上调的) | |
最终计算200个样本中每个样本的失调显著性p值( Fisher's exact test ),即该基因g在这200个癌症样本中的失调显著性p值。
13、回到第四步,计算下一个基因,依次类推计算每一个基因对应癌症样本中的差异失调显著性p值
14、使用FDR来矫正失调显著性p值
15、统计每个基因在癌症样本中的显著失调频次
16、卡一个阈值最终得到普遍差异失调的基因
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!