看教程不够直观,那就看视频吧! >>点击加载视频
NCBI于2000年发起的基因表达汇编(GEO)计划。致力于建立一个基因表达数据仓库和在线资源,用于从任何物种或人造的来源检索基因表达数据。
GEO主要包含各种芯片数据,也有少部分测序数据,与TCGA的差别在于TCGA只包含人的数据,而GEO是多物种的,GEO上有各种平台的数据,而TCGA只有测序数据,芯片数据的数据量较小,而TCGA的测序数据数据量较大。
GEO提供的数据类型
Series: 多个样本连接成一个完整的研究数据集,并提供了整个研究的描述,包括对数据的描述,总结分析。目前共有96445个研究。
Platforms: 用户提交给GEO数据中涉及到的芯片/测序平台,目前GEO上包含了18300种平台的数据。
Samples:用户提交给GEO的样本数据,目前平台上共有2439709个样本
DataSets: GEO工作人员根据用户提交的数据整理后得到的数据集,类似于TCGA的level4数据,目前共有4348个。
Profiles:GEO工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表单情况。
GEO数据检索
GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们检索都是DataSets数据。
比如图中红色标记处都是可以各种定制化设置条件以检索自己想要的内容。
以寻找带有预后信息的胃癌数据集为例。
GEO数据检索胃癌数据
胃癌关键字有:gastric carcinoma,gastric cancer,Stomach Cancer,STAD
临床信息关键字:Clinical,Survival
检索数据结果注意
1、数据平台
2、样本量
3、数据集关联研究
简单看数据描述信息,做到心里有数,比如这套数据集用来做了什么,从Summary里面可以看出大概。
GEO数据下载
检索到数据集之后面临的是怎么下载数据,GEO数据是可以直接在线下载的,非常简单,同时GEO提供了多种数据的下载格式,主要有四种形式:
1、SOFT格式的数据
2、MINIML格式的数据
3、矩阵形式的数据
4、芯片原始数据
GEO数据下载格式
1、SOFT格式和MINIML格式的数据下载的是一个压缩包,解压之后里面有各个样本的单独的表达数据,还有平台的注释数据以及样本信息,其中样本信息是XML文件,其他为TXT格式的数据。
2、矩阵格式的数据下载后是一个压缩包,解压之后是一个TXT文件,可以使用Excel打开,样本信息都包含在里面。
3、无论是哪种数据,矩阵中的信息都是探针的,下载后需要重新处理。
4、GEO国内访问比较慢,在下载数据时经常会断或者会存在数据丢失。
接下来重点来了
GEO数据处理通用方法
1、下载标准化后的矩阵数据
2、使用分位数标准化对数据进行标准化
3、下载平台注释文件
4、根据注释文件提取相关信息,比如基因Symbol
5、将探针ID数据匹配到Symbol上
6、多个探针对应一个基因的,选择中位数来代替,如果存在缺失值使用KNN法进行补缺失值
通过这6步,大部分GEO数据都能玩的转。
对于医生来说,更为重要的是应用,这里介绍一篇GEO文章:GEO数据挖掘文章解析
通过这篇文章,你可以了解GEO数据挖掘文章的基本形式和需要做的工作。
但想要玩转GEO,这还是远远不够呢,你需要什么呢?你需要买一套GEO视频。(刚刚提到的GEO数据挖掘文章也囊括在视频内)
首先、我们挑选一篇今天3月份发表的2.6分的一篇卵巢癌的生信分析文章;
接下来、是GEO数据库的介绍、包括如何快速检索数据、常用数据类型;
数据已经整装待发,那么开始对数据进行表转化、SangerBox工具盒中的GEO转换器、RMA等数据使用说明。
万事具备只欠分析,那么开始对数据进行标准化、箱线图工具介绍、差异分析(DEcenter工具使用方法)、火山图(差异结果可视化)以及热图(Gene Cluster和TreeView的联合使用)以及多套数据差异分析结果整合(RRA工具使用)
是时候展现真正的技术了,那么基本分析已经完成,接下里是文章中的复杂分析,如GSEA(此乃拓展,工具盒中的简易GSEA的使用以及结果解析)、功能富集(无论是KEGG还是GO,DAVID及g:Profiler的使用操作)、富集结果的可视化(Excel展示、Cytoscape中Enichment、ClubGO等插件)以及PPI互作网络分析(主要介绍String数据库以及MCODE插件的使
到此为止,全部学完,恭喜你已经能玩转GEO数据挖掘了。
PS.想看社区视频是需要注册登陆账号和付费的,搞不懂请联系助理QQ 1615556104
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!