GSEA 富集分析简述

GSEA定义: Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包含两部分,一...

GSEA定义:

Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。其输入数据包含两部分,一个是已知功能的基因集 (可以是GO注释、MsigDB的注释或其它符合格式的基因集定义),一个是表达矩阵,软件会对基因根据其于表型的关联度(可以理解为表达值的变化)从大到小排序,然后判断基因集内每条注释下的基因是否富集于表型相关度排序后基因表的上部或下部,从而判断此基因集内基因的协同变化对表型变化的影响。

更多可以查看:

GSEA并不像DAVID等常见的富集分析工具那样,DAVID做富集分析是先获取目标基因集(比如:筛选差异基因),再判断目标基因在哪些注释的通路存在富集;这里就存在目标基因集的选择对结果存在较大的影响;而GSEA则不局限于某些目标基因集,而是从所有基因的表达丰度出发,分析在不同的通路中的基因的整体表达影响,理论上更容易囊括细微但协调性的变化对生物通路的影响。

GSEA原理:
给定一个已经排序的基因列表L和一个预先定义的基因集合(比如某个通路的所有基因)基因集S ,计算S里面的成员sL里面是随机分布还是主要聚集在L的顶部(排序的前面)或底部(排序的后面)。这些基因排序的依据是可以是不同表型状态下的表达差异也可以是某个自己定义的排秩关系,若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对该排序有贡献。
举个列子:我们拿到了癌与癌旁的表达谱数据,分别计算了每个基因在癌与癌旁中的差异foldchange,我们按照这个foldchange进行排序 L,最下调的在最前面,最上调的在最后面,假设我们想观察细胞周期与这个癌症的关系,我们获取细胞周期中的所有基因S,那么我们就可以计算S中的这些基因在L中所处的位置如果聚集在前面,那么提示 细胞周期中的大部分基因下调,意味着在该癌症中 细胞周期 被抑制;反之被激活,若干随机分布则与细胞周期无关。
以上是对于单个 通路(细胞周期);我们可以对每个通路都如此做,那么每个通路中的基因怎么获取呢,与GSEA配套使用的MsigDB数据库中就可以获取到,即那些gmt文件
attachments-2018-08-W62H1fEP5b727fe7669a2.png

GSEA中几个关键概念:

  1. 计算富集得分 (ES, enrichment score). ES反应基因集成员s在排序列表L的两端富集的程度。计算方式是,从基因集L的第一个基因开始,计算一个累计统计值。当遇到一个落在s里面的基因,则增加统计值。遇到一个不在s里面的基因,则降低统计值。每一步统计值增加或减少的幅度与基因的表达变化程度(更严格的是与基因和表型的关联度)是相关的。富集得分ES最后定义为最大的峰值。正值ES表示基因集在列表的顶部富集,负值ES表示基因集在列表的底部富集。

  2. 评估富集得分(ES)的显著性。通过基于表型而不改变基因之间关系的排列检验 (permutation test)计算观察到的富集得分(ES)出现的可能性。若样品量少,也可基于基因集做排列检验 (permutation test),计算p-value。

  3. 多重假设检验矫正。首先对每个基因子集s计算得到的ES根据基因集的大小进行标准化得到Normalized Enrichment Score (NES)。随后针对NES计算假阳性率。(计算NES也有另外一种方法,是计算出的ES除以排列检验得到的所有ES的平均值)

  4. Leading-edge subset,对富集得分贡献最大的基因成员。


  • 发表于 2018-08-14 15:07
  • 阅读 ( 16669 )
  • 分类:软件工具

2 条评论

请先 登录 后评论
不写代码的码农
祝让飞

生物信息工程师

118 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章