实战系列（三）模仿4分胃癌发病机制和预后关键基因的文章

DOI ： 10.3389/fgene.2018.00265我们桑格助手的读者一定明白给 DOI是为什么，如果万一第一次看本公众号的文章，不明白，我稍稍解释一下，通过DOI可以浏览到文献的全文（我们不说下载(#^.^#）桑格助

我们桑格助手的读者一定明白给DOI是为什么，如果万一第一次看本公众号的文章，不明白，我稍稍解释一下，通过DOI可以浏览到文献的全文（我们不说下载(#^.^#）桑格助手公众号使用攻略

实战前两篇在这里：

本文章18年7月发表于Frontiers inGenetics，当年4分现在3.5分，属于一个可以模仿的范畴，作为经典套路学习很好。

文章基本思路是通过一系列的生物信息分析的方法挖掘胃癌预后相关的潜在标志物，该研究的结果为进一步研究诊断和预后生物标志物以及促进GC的分子靶向治疗提供了一些指导意义。

Step1:数据筛选

通过调研GEO数据库寻找合适研究的样本集：

GSE19826，GSE27342，GSE29272，GSE33335，GSE54129，GSE56807，GSE63089，GSE65801和GSE79973；

筛选标准：（1）他们使用人胃组织样本。

（2）他们包含病例对照组。

（3）它们含有至少十个样品。

选取对应TCGA的胃癌数据：从癌症基因组图谱（TCGA）获得含有375个GC样品和32个匹配的癌旁样品的RNA-Seq数据

数据展示如下：

Step2:差异基因分析及合并

1、使用limma包对每个芯片数据集进行差异分析，选择阈值为|log2FC|≥1，P值<0.05且FDR<0.05。

2、使用RRA（RobustRankAggreg）包对这9套数据集的差异基因进行合并，使用默认参数，共得到411个差异基因，包含234个下调基因和177个上调基因。

3、TCGARNA-Seq数据差异分析，使用R软件包edgR，使用阈值为|log2FC|≥1，P值<0.05并且FDR<0.05，得到2219个下调基因和2404个上调基因。4、与GEO的差异数据集进行合并取交集，共得到268个重叠DEG（149个下调基因和119个上调基因）

Step3:差异基因富集分析

1、使用DAVID做GO富集分析 FDR<0.05

2、使用R软件包clusterProfiler做KEGG富集分析FDR<0.05

3、气泡图对结果进行可视化

Step4:PPI网络互作分析

1、将差异基因丢入到String数据中，选择置信得分大于等于0.4作为阈值，得到差异基因的互作信息，共得到173 nodes and 711 interactions。

2、将互作信息导入到Cytoscope进行网络可视化，统计分析网络的拓扑性质（度和介数中心性），根据网络的度和介数中心性来筛选hub gene，得到10个基因。

3、使用Cytoscope的mcode插件进行网络模块挖掘（使用默认参数），得到三个模块，这三个模块包含了10个hub基因中的九个。

4、对每个模块进行通路富集分析观察这些模块的功能来推测这9个hub 基因的功能

Step5:差异基因预后分析

1、选择TCGA带预后信息的368个样本，匹配差异基因的表达谱进行单因素生存分析，选择阈值0.05，共得到44个预后相关的差异基因。

2、进一步使用多因素回归，对这些显著的基因进行多因素回归分析，得到了9个基因。

Step6：高低风险组的表达差异分析

这篇文章解读相对细致，作为一个标准，如果不能独立完成这样一个分析流程，那么生信能力大约处于刚入门或未进阶的状态，想要独立完成以生物信息分析为主的课题是比较困难的。当然困难归困难，不代表不能做，现在有很多0代码只用网站后者工具进行数据分析的方法。

想要购买一套这样的方案或者学习生信课程欢迎微信联系小编(*^▽^*)

转自：桑格助手

0 条评论