GSEA （Gene Set Enrichment Analysis基因集富集分析）简介

官网 http://software.broadinstitute.org/gsea/index.jsp

官网下载 http://software.broadinstitute.org/gsea/downloads.jsp

安装前需要安装好java环境

官网说明书 http://software.broadinstitute.org/gsea/doc/desktop_tutorial.jsp

首先我们先了解一下什么叫做基因富集分析

基因富集分析是分析基因表达信息的一种方法，富集是指将基因按照先验知识，也就是基因组注释信息进行分类。

2005年提出了基于基因集(gene set)定义的基因富集分析方法。首先要定义基因集，也就是基于我们的先验知识（基因组注释信息），将基因富集，可以想象成，用一堆代表基因功能的箱子（bin）把具有相同或相似功能的基因装起来，起到了降维的作用，当然，每个基因可能同时参与好几种功能。

这样，得到这两组数据后，我们所分析的不是单个基因表达的差异，而是箱子与箱子之间的差异。由此，我们得到的数据更容易解释。

GSEA基本思想

使用预定义的基因集，将基因按照在两类样本中的差异表达程序排序，检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。

GASEA原理

PNAS文章Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.Proc Natl Acad Sci U S A. 2005 Oct 25;102(43):15545-50. Epub 2005 Sep 30.

GSEA如何使用

我们只需要一个表达矩阵，并做出分组说明的cls文件

说明书的测试数据http://software.broadinstitute.org/gsea/datasets.jsp

数据要求格式：http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats

我直接下载p53的测试数据

12625:基因数量 50 ：样本数量

说明文件：50个样本分两组，一组为Death（D），一组为Alive（A）

50 2 1
#Death Alive
D D D D D D D D D D D D D D D D D D D D D D D D D A A A A A A A A A A A A A A A A A A A A A A A A A

（一共50个各25个）

然后用Method 1将两个文件导入GSEA

确定无误后开始运行，运行需要设置参数

输出的数据非常多，对你选择的gene set数据集里面的每个set都会分析看看是否符合富集的标准，富集就出来一个报告。

点击success就能进入报告主页，里面的链接可以进入任意一个分报告。

其实除了GSEA之外，还有很多富集分析的工具。之前生信人上也推送过。富集分析工具汇总

当然了，如果你能掌握富集分析的原理，那么你完全可以不借助工具，去得到你想要的结果。
富集分析原理
富集分析经常用在差异表达基因、选择压力基因筛选后分析上，总有人会分不清富集和注释的关系。
本文主要从过滤背景（爹）的角度帮助大家为啥必须要做富集分析。

简单介绍
如上图中A代表我上调的基因，B中为注释到某一个通路中基因。50代表注释到B并且处于上调的基因。
我们这里研究富集其实就是为了研究那50个基因，直接注释不是已经很有意义了吗。为啥还要计算个p值，计算富集。
过滤背景
其实这里有一个问题。就是我们感兴趣的100个基因其中有50个跟这个通路有关，剩下的50个可能和其他的通路有关。如果有一部分基因比如20个富集到了含有30个基因的C通路上，这样，我们就很难直观的了解到A到底是富集在B上，还是C上。
因为B、C通路上的基因数不一样多，说白了就是不一样。而计算富集就是要将B、C本身的背景过滤掉。（将拼爹的因素过滤掉）
如果过滤呢，很简单，就是计算两个比率是否相等。
B通路中基因和总体基因的比率
富集到B中基因和B通路中基因的比率。
如果显著不相等，p<0.05，说明过滤掉背景之后，基因还是显著的富集在B上。
通常的统计学检验方法
Fisher 精确检验来确定两个总体比率是否相等。对于此应用，原假设假定两个总体比率是相等的 (H0:p1 = p2)；备择假设可以是左尾 (p1 < p2)、右尾 (p1 > p2)，或双尾 (p1 ≠ p2)。Fisher 精确检验作为两个比率的检验十分有用，因为它对于所有样本数量都是准确的，而当事件数小于 5时，以及试验数减去事件数的结果小于 5 时，基于正态近似的 2 个比率的检验可能不准确。

发表于 2017-07-21 20:12
阅读 ( 25582 )
分类：软件工具

GSEA （Gene Set Enrichment Analysis基因集富集分析）简介

你可能感兴趣的文章

相关问题

1 条评论

作家榜 »