GSEA (Gene Set Enrichment Analysis基因集富集分析)简介

官网 http://software.broadinstitute.org/gsea/index.jsp

官网 http://software.broadinstitute.org/gsea/index.jsp

官网下载 http://software.broadinstitute.org/gsea/downloads.jsp

安装前需要安装好java环境

官网说明书 http://software.broadinstitute.org/gsea/doc/desktop_tutorial.jsp 

 

首先我们先了解一下什么叫做基因富集分析 

基因富集分析是分析基因表达信息的一种方法,富集是指将基因按照先验知识,也就是基因组注释信息进行分类。

2005年提出了基于基因集(gene set)定义的基因富集分析方法。  首先要定义基因集,也就是基于我们的先验知识(基因组注释信息),将基因富集,可以想象成,用一堆代表基因功能的箱子(bin)把具有相同或相似功能的基因装起来,起到了降维的作用,当然,每个基因可能同时参与好几种功能。

这样,得到这两组数据后,我们所分析的不是单个基因表达的差异,而是箱子与箱子之间的差异。由此,我们得到的数据更容易解释。 

 

GSEA基本思想  

使用预定义的基因集,将基因按照在两类样本中的差异表达程序排序,检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。

 

GASEA原理

PNAS文章Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.Proc Natl Acad Sci U S A. 2005 Oct 25;102(43):15545-50. Epub 2005 Sep 30. 

 

GSEA如何使用

只需要一个表达矩阵,并做出分组说明的cls文件

测试数据http://software.broadinstitute.org/gsea/datasets.jsp

数据要求格式:http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats

我直接下载p53的测试数据

attachments-2017-07-WanuehZ85971f2cd36c8

12625:基因数量  50 :本数量

明文件:50本分两,一组为DeathD),一组为AliveA

50 2 1
#Death Alive
D D D D D D D D D D D D D D D D D D D D D D D D D A A A A A A A A A A A A A A A A A A A A A A A A A

(一共50 25个)

 然后用Method 1将两个文件GSEA 

 attachments-2017-07-RBdsHQsL5971f2e5d079

确定无误后开始运行,运行需要设置参数

attachments-2017-07-NTMhSxNf5971f2fc78e1

输出的数据非常多,对你选择的gene set数据集里面的每个set都会分析看看是否符合富集的标准,富集就出来一个报告。

点击success就能进入报告主页,里面的链接可以进入任意一个分报告。

attachments-2017-07-OT6KpzWK5971f86ac624


  1. 其实除了GSEA之外,还有很多富集分析的工具。之前生信人上也推送过。富集分析工具汇总
     biocc_2d7d347d_7a19_4e73_af97_634631c316
    biocc_a814f01a_9eb0_4abf_b768_d5f239cde1
    当然了,如果你能掌握富集分析的原理,那么你完全可以不借助工具,去得到你想要的结果。
    富集分析原理
    富集分析经常用在差异表达基因、选择压力基因筛选后分析上,总有人会分不清富集和注释的关系。
    本文主要从过滤背景(爹)的角度帮助大家为啥必须要做富集分析。
     640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy
    简单介绍
    如上图中A代表我上调的基因,B中为注释到某一个通路中基因。50代表注释到B并且处于上调的基因。
    我们这里研究富集其实就是为了研究那50个基因,直接注释不是已经很有意义了吗。为啥还要计算个p值,计算富集。
    过滤背景
    其实这里有一个问题。就是我们感兴趣的100个基因其中有50个跟这个通路有关,剩下的50个可能和其他的通路有关。如果有一部分基因比如20个富集到了含有30个基因的C通路上,这样,我们就很难直观的了解到A到底是富集在B上,还是C上。
    因为B、C通路上的基因数不一样多,说白了就是不一样。而计算富集就是要将B、C本身的背景过滤掉。(将拼爹的因素过滤掉)
    如果过滤呢,很简单,就是计算两个比率是否相等。
    B通路中基因和总体基因的比率
    富集到B中基因和B通路中基因的比率。
    如果显著不相等,p<0.05,说明过滤掉背景之后,基因还是显著的富集在B上。
    通常的统计学检验方法
    Fisher 精确检验来确定两个总体比率是否相等。对于此应用,原假设假定两个总体比率是相等的 (H0:p1 = p2);备择假设可以是左尾 (p1 < p2)、右尾 (p1 > p2),或双尾 (p1 ≠ p2)。Fisher 精确检验作为两个比率的检验十分有用,因为它对于所有样本数量都是准确的,而当事件数小于 5时,以及试验数减去事件数的结果小于 5 时,基于正态近似的 2 个比率的检验可能不准确。


  • 发表于 2017-07-21 20:12
  • 阅读 ( 14110 )
  • 分类:软件工具

1 条评论

请先 登录 后评论
不写代码的码农
金晓妍

3 篇文章

作家榜 »

  1. 祝让飞 117 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. 生信分析流 55 文章
  5. SXR 44 文章
  6. 张海伦 31 文章
  7. 爽儿 25 文章
  8. shengxinbaodian 16 文章