实战系列(一)手把手复现3分lncRNA经典小文章

DOI :  10.1080/21691401.2017.1366334 17年发表的与肺鳞癌预后相关的lncRNA研究,影响因子3.026 此篇相对有点早,但是作为一个标准,如果不能完成这样的一个研究,想做近期热点的免疫研究是很难

DOI : 10.1080/21691401.2017.1366334


17年发表的与肺鳞癌预后相关的lncRNA研究,影响因子3.026

此篇相对有点早,但是作为一个标准,如果不能完成这样的一个研究,想做近期热点的免疫研究是很难的。

大部分没有生信基础的医学工作者看完本篇应该都能模仿个大概,话不多说,进入正文。





结果展示

Figure 1. The statistical frequency of every lncRNA.


Figure 2. lncRNA-Protein interaction net-work.



Figure 3. The AUC curves of 11 lncRNAs in multivariate survival analysis. (A) the AUC curves; (B) Kaplan–Meier survival analysis.


Figure 4. Kaplan–Meier survival analysis of clustering method of 11 lncRNAs.


Figure 5. Box line diagram of significant p values for each model. p values were obtained from one thousand random survival analyses on the different clustering methods of six gene models.


Figure 6. Kaplan–Meier survival analysis of different clustering algorithm. Each square is the risk score of clustering algorithm of 11 lncRNAs. Domains in red (marked with stars) represent the significant influences on the prognoses with p value < .05. The right ordinate is the gene model of each gene group; the horizontal ordinate is the classification according to the TNM.

文章整体思路

下载 TCGA RNA-Seq 数据,提取 LncRNA表达数据,初步筛选在各疾病样本中有变化的 lncRNA,然后将各有变化的 LncRNA 分别做单因素生存分析筛选出对预后有显著影响的lncRNA,进一步的使用这些lncRNA构建Rebust likelihood-based生存模型找疾病预后关键的特征LncRNA,随机抽样迭代一千次,统计lncRNA出现频率,最终筛选出高频的lncRNA作为预后特征lncRNA,多因素生存分析预后特征 lncRNA观察其对预后的影响,根据特征lncRNA 的风险比分别对各样本中的表达水平进行划分是否为风险因子,统计样本的在该 lncRNA组合下风险因子个数,根据不同的风险因子个数对样本进行归类并使用 Kaplan-meier 做univariate analysis,同时进行一千次的样本随机扰动查看Kaplan-meierunivariate analysis结果的显著性的稳定性并筛选出最优的组合。

操作步骤

1.数据下载和预处理

从 TCGA 数据库获取 RNA-Seq(截至时间2017.4.5) 数据,包含502个肺鳞癌患者样本, 其中450个患者是原发性肺鳞癌样本,使用这450个样本作为本实验的数据进行后续的分析, 提取出lncRNA表达数据, 使用中位数标准化对每个样本的表达水平进行标准化, 由于RPKM数值分布区间跨度大,不易于在模型中使用,进一步对每个FPKM值做了 log2(X+1)处理。X为对应的FPKM值。 

2.预处理筛选潜在变化的lncRNA

相同的疾病类型不同的病人有着不同的预后结果, 这些都因 lncRNA表达水平不同而不同,病人的lncRNA表达水平不同导致不一样的预后风险,首先我们筛选 lncRNA在各个病人中变化较大的 lncRNA。筛选在各个疾病样本中有变化的 lncRNA,如 A lncRNA 符合筛选规则如下: 

一、 20%的样本的 A lncRNA 表达水平1.2 倍大于所有样本 A lncRNA表达水平的中位数的 lncRNA。 

二、 A lncRNA 在各样本中表达水平的方差高于中位数。 

结果:

3.单因素生存分析

将得到的在疾病样本中符合变化条件的 lncRNA使用R包Survival分别做单因素生存分析,选择显著性水平p<0.05的 lncRNA 作为种子 lncRNA 集

4.RBsurv降维

rbsurv是根据似然函数选择与生存相关的基因,是利用了COX模型的一种降维方法。 

已有多篇文章使用了该方法,本文采用了该方法rbsurv进行降维,为了获取更全面的结果,我们随机抽取一半以上的样本一千次,使用Rebust likelihood-based生存模型寻找最优的lncRNA集合,并统计lncRNA 出现的频次,找到出现频率最多的lncRNA作为最终的预后特征lncRNA,最终选择了11个lncRNA。

5.筛选的目标lncRNA互作分析

 为了观察获得的这几个lncRNA参与什 么样的功能,使用 starbase2.0数据库查询这11个 lncRNA 互作的蛋白,如图,进一步将這些蛋白使用DAVID进行注释, 从中可以看出共有 4 个蛋白 有GO注释,他们都与细胞核中的 DNA修复,细胞增殖相关,这提示了他们可能与癌症的发生发展有关。

6.AUC曲线绘制

将得到的预后特征lncRNA进行多因素生存分析,查看lncRNA整体对预后 的影响,并使用 R 包 survivalROC绘制 AUC 曲线,发现他们的AUC曲线线 下面积0.8,对预后具有显著的分类效果。

7.建立分类模型

对于每一个种子模型都根据如下规则对疾病样本进行分类:

一、 取得回归模型中的 lncRNA集,并计算每个 lncRNA的单因素生 存分析所得到的风险系数 HR(风险比( hazard ratio,HR)[ HR=暴 露组的风险函数 h1(t)/非暴露组的风险函数 h2(t),t 指在相同的时间点 上]。而风险函数指危险率函数、条件死亡率、 瞬时死亡率。Cox 比例风险模型可以得到 HR)。

 二、 当 A LncRNA HR>1 时,则将所有样本中A LncRNA 表达水平Top20%样本定义获得了1个风险因子,同理当 A LncRNA HR<1时, 则将所有样本中 A LncRNA 表达水平 low20%样本定义获得 1 个风险因子

三、 计算回归模型中病人获得的风险因子个数,并按照样本的风险因 子≥1、≥2、≥3……等对样本进行分类 

最终发现1-7种方式都具有显著的预后差异。

8.一千次随机抽取样本重构

根据分类模型的方式发现有7种分类方式对预后都存在显著的影响,为了区分这7种分类方式哪一种比较好,作者随机抽取样本一千次,然后将应用这七种分类模型去对样本进行分类,观察分类后的样本预后差异显著性分布

9.TNM不同分期中的分类效果

 从1000次随机发现这七个模型中有六个都很稳定,p值普遍都很低。 所以作者又看了一下这七个模型在不同的TNM分期的样本中的分类效果。

结果:发现≥4-LncRNAs是最优的








转自:桑格助手
  • 发表于 2019-07-10 09:47
  • 阅读 ( 6012 )
  • 分类:默认分类

0 条评论

请先 登录 后评论
不写代码的码农
生信分析流

FBI

55 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章