WGCNA 一键式分析工具

加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同样品之间基因关联模式的系统生物学方法，可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基...

加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同样品之间基因关联模式的系统生物学方法，可以用来鉴定高度协同变化的基因集, 并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。

相比于只关注差异表达的基因，WGCNA利用数千或近万个变化最大的基因或全部基因的信息识别感兴趣的基因集，并与表型进行显著性关联分析。一是充分利用了信息，二是把数千个基因与表型的关联转换为数个基因集与表型的关联，免去了多重假设检验校正的问题。

理解WGCNA，需要先理解下面几个术语和它们在WGCNA中的定义：

共表达网络：定义为加权基因网络。点代表基因，边代表基因表达相关性。加权是指对相关性值进行冥次运算 (冥次的值也就是软阈值 (power, pickSoftThreshold这个函数所做的就是确定合适的power))。无向网络的边属性计算方式为 abs(cor(genex, geney)) ^ power；有向网络的边属性计算方式为 (1+cor(genex, geney)/2) ^ power; sign hybrid的边属性计算方式为cor(genex, geney)^power if cor>0 else 0。这种处理方式强化了强相关，弱化了弱相关或负相关，使得相关性数值更符合无标度网络特征，更具有生物意义。如果没有合适的power，一般是由于部分样品与其它样品因为某种原因差别太大导致的，可根据具体问题移除部分样品或查看后面的经验值。

Module(模块)：高度內连的基因集。在无向网络中，模块内是高度相关的基因。在有向网络中，模块内是正相关的基因。把基因聚类成模块后，可以对每个模块进行三个层次的分析：1. 功能富集分析查看其功能特征是否与研究目的相符；2. 模块与性状进行关联分析，找出与关注性状相关度最高的模块；3. 模块与样本进行关联分析，找到样品特异高表达的模块。

Connectivity (连接度)：类似于网络中度 (degree)的概念。每个基因的连接度是与其相连的基因的边属性之和。

Module eigengene E: 给定模型的第一主成分，代表整个模型的基因表达谱。

Intramodular connectivity: 给定基因与给定模型内其他基因的关联度，判断基因所属关系。

Module membership: 给定基因表达谱与给定模型的eigengene的相关性。

Hub gene: 关键基因 (连接度最多或连接多个模块的基因)

Adjacency matrix (邻接矩阵)：基因和基因之间的加权相关性值构成的矩阵

TOM (Topological overlap matrix)：把邻接矩阵转换为拓扑重叠矩阵，以降低噪音和假相关，获得的新距离矩阵，这个信息可拿来构建网络或绘制TOM图

基本分析流程：

构建基因共表达网络：使用加权的表达相关性。

识别基因集：基于加权相关性，进行层级聚类分析，并根据设定标准切分聚类结果，获得不同的基因模块，用聚类树的分枝和不同颜色表示。

如果有表型信息，计算基因模块与表型的相关性，鉴定性状相关的模块。

研究模型之间的关系，从系统层面查看不同模型的互作网络。

从关键模型中选择感兴趣的驱动基因，或根据模型中已知基因的功能推测未知基因的功能。

总结如上WGCNA分析共分为三步：

1、选择合适的软阈值

2、确定共表达模块

3、分析模块和表型的关系

在这里我们开发了一个一键式的可交互的WGCNA分析工具，仅需要提供表达谱即可进行分析，输入数据界面如下：

从输入界面看已经是非常简单，你只需要准备好表达谱矩阵就可以了，但是需要注意的是并不是啥表达谱矩阵都能往里放的，首先你表达谱的基因个数不能太少，太少的话容易找不到合适的软阈值，基因个数不能太多，太多计算量非常大，很多时候并没有必要，建议事前先做过滤，载入之后就点击分析

耐心等待运行完成，这里根据输入的表达谱的行数不同时间长短不同，一般几千行的话很快就运行完，运行完成后后侧可以看到 载入结果四个字，点击打开页面即可看到运行结果了

载入结果之后，页面下方分五大板块：

第一个板块展示如下：

这里需要特别注意的是软阈值，当程序找不到最优软阈值时，使用经验软阈值

# 无向网络在power小于15或有向网络power小于30内，没有一个power值可以使用
# 无标度网络图谱结构R^2达到0.8，平均连接度较高如在100以上，可能是由于部分样品与其他样品差别太大。这可能由批次效应、样品异质性或实验条件对表达影响太大等造成。可以通过绘制样品聚类查看分组信息和有无异常样品。
程序自动会使用下面的经验power值。