多种生信套路组合——发4分的文章

这篇文章今年1月份发表在J Cell Mol Med上;文章只有两套数据,一套训练集和一套验证集;作者构建的模型AUC也不是很高,但是文章的分数发了4.6分。 主要原因是作者能够将很多常规分析串起来,这些分析大家在泛癌课程和之前分享的文章、小工具推文中大家都接触过。 所以小编提议大家多看文章,英文看不懂,没有关系,可以先看小编的解读,再看看原文,锻炼自己的思维。
Systematic construction and validation of an immune prognostic model for lung adenocarcinoma

构建与验证免疫相关的预后模型来预测肺腺癌患者的预后

发表期刊:J Cell Mol Med

发表日期:2020 Jan 24

影响因子:4.65

DOI:10.1111/jcmm.14719

一.     流程图

attachments-2020-06-dnG3qTy35ee0fbadc24a5.png


二.     研究背景

        在世界上肺癌是最常见的死亡率较高的原因之一,通常将肺癌可分为非小细胞肺癌(NSCLC)或小细胞肺癌。非小细胞肺癌约占所有肺癌的85%,其中肺腺癌(LUAD)是NSCLC最常见组织学亚型,其次是鳞状细胞癌。由于LUAD早期容易发生转移,LUAD患者的预后通常较差,5年的存率低于20%。尽管这几年在靶向治疗和临床治疗研究者取得了很大的进展,但是LUAD患者5年总生存率(OS)仍然较低。

        肿瘤细胞利用免疫逃逸过程来躲避免疫系统的攻击,且有研究认为癌症中的免疫紊乱可以促进肿瘤的发生和发展。尽管之前在免疫系统与肿瘤之间的相互作用的研究中取得了很大的进展,并且肿瘤免疫治疗促进肿瘤治疗,但是免疫治疗只适应于一部分患者,具有片面性。近年来,癌症免疫治疗引广泛关注,因为免疫检查点阻断疗法可以在包括肺癌在内的难治性恶性肿瘤中保持持久、长期的疗效。且NSCLC中免疫检查点抑制剂的临床开发开始于肿瘤转移的患者。现在认为肿瘤微环境中的免疫应答是决定肿瘤侵袭性和进展的重要因素,以及对免疫调节剂的反应。肿瘤浸润性免疫细胞的密度和类型,以及它们释放出的细胞因子和免疫基因的表达水平,已经作为肺癌的预后生物标记物广泛研究。

        在这个研究中,作者使用多套数据集,构建和验证与免疫相关的预后模型来预测LUAD患者的预后情况,并将临床变量与预后模型相结合构建诺谟图,对预测模型的预测性能进行评估。

三.     材料与方法

1.       数据来源

训练集:TCGA数据库535LUAD患者的RNA-seq数据和相应的临床信息数据

验证集:GEO数据库GSE号为GSE31210,包含226LUAD患者表达谱数据以及相应的临床信息

2.       分析方法

差异基因分析:R程序包edgeR,阈值为|log2 FC(fold‐change)|> 2P <0.01

富集分析:GSEA基因集富集分析、DAVID网站GO功能富集与KEGG通路富集分析

构建风险模型:单因素cox比例分析(p<0.01LASSO回归分析、多因素cox比例分析、Mantel-Cox检验、Kaplan-Meier曲线分析、ROC曲线分析、 log rank检验

计算免疫细胞评分:CIBERSORT

模型评估:诺谟图、C-index

四.     主要结果

1.       筛选差异基因与GSEA富集分析

       LUAD患者肿瘤组织和相邻的正常组织之间,共鉴定出5774个差异基因(DEGs),与正常组织样本相比,肿瘤样本中上调基因4962个,下调基因812个(图​1A-B)。之后作者利用TCGA数据库中LUAD患者以及5774DEGs进行GSEA富集分析,寻找与免疫相关的通路和基因集。结果显示,有12条免疫相关通路与LUAD患者成负相关,表明LUAD肿瘤微环境中的局部免疫反应减弱(图C)。最后,提取这12条通路中富集到的基因,发现有353个差异基因与免疫相关,用于后续分析。

2.       训练集构建预后模型

       使用训练集携带的临床数据,对353个免疫基因进行单因素cox回归分析,结果显示有113个免疫基因与患者的预后情况显著相关。然后进一步使LASSO回归进行降维,最终得到2个免疫基因作为候选基因(图1D-E),进一步使用多因素cox回归分析,建立风险免疫基因预后模型,如下所示: risk score = (0.2518 × ANLN ) + (0.0879 × F2 ),计算训练集中每个患者的风险评分,并根据最优的阈值将患者分为高低风险两组,低风险组患者的生存时间要比高风险组的长且存在显著差异(P<0.001 HR=2.26 95%CI1.62‐3.14).2A),训练集两个免疫基因的表达情况与患者生存情况如图2B所示,ANLNF2的表达水平与风险评分显着相关,并且这两个基因在低风险组患者中低表达高风险组中高表达且两组之间存在显著差异(图2C-D)。此外,ROC曲线显示,免疫预后模型在1年,2年,3年和5年时的AUC分别为0.70610.68160.67470.6332(图2G),表明该模型对训练集LUAD患者预后的预测能力很好。最后将本次构建的模型与Shukla等构建的4个基因预后模型(FRRS1LINC00941CD109RHOV)进行比较,使用C-index对不同的模型进行评估,结果说明,本次构建的免疫预后模型的C指数(0.6540)超过了Shukla等人构建的模型(0.6446)的C指数,这表明我们的免疫预后模型对患者短期与长期具有良好的预测效果。

3.       验证集对模型进行验证

       为了确认免疫预后模型的鲁棒性,使用验证数据集(n = 226),使用与训练集模型相同的基因以及系数对验证集每个患者进行风险评分,并根据最佳阈值将将患者分为高低风险两组,与训练集得出的结论一致,低风险组的患者比高风险组患者的生存时间更长(P <0.001; HR = 2.98; 95% CI1.45‐6.12H)。验证集中两个免疫基因的表达情况与患者生存情况如图2I所示,这个结果与训练集结果类似。ANLNF2的在验证集中表达水平与风险评分显着相关,并且这两个基因在低风险组患者中低表达高风险组中高表达且两组之间存在显著差异(图2G-M),最后,验证集中免疫预测模型的AUC1年、2年、3年和5年分别达到0.68020.75490.65740.6981,表明该模型对验证集LUAD患者预后的预测能力良好(图2N)。

4.       风险模型对验证集临床信息亚型患者进行预测

TCGA训练集中,使用免疫基因风险模型分别对I–II期和III-IV期患者的预后情况进行预测,结果显示,在I-IILUAD患者中,低风险组的生存时间比高风险组的生存时间要长,且两组之间存在显著差异 (P <0 .001; HR = 2.02; 95% CI = 1.32‐3.08,2O)。在III-IV期肺腺癌患者中存在类似的情况 (P = 0.003; HR = 2.09; 95% CI = 1.25‐3.5,图2P)。由于东亚地区LUAD患者的EGFR突变频率和TKI药物应答率较高,所以使用免疫预测模型对TCGA数据集中分析EGFR突变状态患者的生存情况进行预测,结果表明低风险组的患者与高风险组的患者相比,低风险组患者接受EGFR‐TKI作为辅助治疗对生存状况更有利 (P = .024; HR = 2.4; 95% CI = 0.88‐6.51,图2Q) 

5.       免疫相关基因与风险模型基因的关系

       为了进一步探讨免疫预后模型与免疫应答之间的关系,作者选择了B7基因家族的相关基因和之前研究过7个与炎症相关的基因在训练集样本的表达量基因模型风险评分的相关性,结果显示,B7家族基因、干扰素和STAT1与基因风险评分呈正相关,而HCKIgGLCKMHC-IMHC-II与风险评分呈负相关(图3A)。此外,采用微环境细胞群计数法评估免疫细胞群与风险评分之间的关系。结果显示,高低分险组的免疫细胞的含量存在显著差异(图3B),与高风险组相比,低风险组患者的B系细胞、内皮细胞、髓系树突状细胞、中性粒细胞和T细胞比例显著升高,NK细胞比例显著降低(图3C)。

        非小细胞肺癌患者进行pembrolizumab治疗的标志是PD-L1的表达,因此,通过PD-L1的表达量来展示免疫预后模型对患者的预测能力。与低风险患者相比,高风险患者的PD-L1表达明显升高(P<0.001),在接受pembrolizumab 治疗时可能反应更好,预后更好(图3D)。肿瘤突变负荷(TMB)可作为预测nivolumab疗效的预测因子。研究表明接受nivolumab治疗的高TMB患者有较高的应答率和良好的DFS,因此,研究了t检验显示低风险组和高风险组的TMB之间存在显著差异(P<0.0001;图33E)。体细胞拷贝数改变(SCNA)驱动肿瘤发生的因素,在人类癌症中广泛存在。恶性肿瘤患者的高SCNA水平对不利于恶性黑色素瘤患者的生存率,而恶性肿瘤SCNA评分是免疫治疗后生存率的良好预测指标。因此,用免疫预后模型对LUAD患者的SCNA进行分类。高风险患者的SCNA评分明显高于低风险患者(P<0.001;图3F)。

6.       免疫基因ANLNF2与免疫细胞的关系

       接下来作者分析了免疫基因模型中的基因ANLNF2与免疫细胞评分的相关性。作者首先使用CIBERSORT计算训练集和验证集每个样本中22中免疫细胞评分,图4A-B展示了TCGA数据集和GEO数据集样本中免疫细胞评分的分布情况。然后,免疫基因ANLNF2和免疫细胞的进行相关性分析,作者认为TCGAGEO LUAD数据集中样本免疫细胞评分和免疫基因表达量有相关的条件为相关系数大于0.4P<0.05(图4C)。结果显示,ANLN与三个免疫细胞(T细胞CD4记忆激活,T细胞调节和中性粒细胞相关(图4D-E),而F2与三个免疫细胞(T细胞调节,肥大细胞激活和中性粒细胞)(图4F-G)相关。

7.       功能富集分析

       接下来,作者使用前面分析的353个与免疫相关的差异基因,在高低分险两组样本之间再一次的做差异分析,设定阈值|log2 FC|>2P<0.01。结果显示,在高风险组中有45个免疫基因高表达,低风险组中有11个免疫基因高表达。然后使用DAVIDKOBAS对差异基因进行功能富集分析,分别探索在高风险组和低风险组中高表达基因的潜在生物学功能。结果显示,在高风险组中富集143个生物学过程和12条代谢通路,在低风险组中富集33个生物学过程和39条代谢通路。高风险前三个生物学过程过程与细胞抵抗外来因素的影响,刺激细胞做出反映等生物学功能有关(图5A);低风险前三个生物学过程过程免疫反应、刺激反应的阳性调节和免疫系统过程调节生物学功能有关(图5C);高风险组前三个途径与酒精中毒、系统性红斑狼疮和病毒致癌等过程相关(图5B);低风险组前三个途径与脂肪细胞、前列腺癌和Ras信号途径的脂解调节(图5D)。

8.       免疫基因预后模型与临床变量关联分析

       使用基因风险模型与其他临床数据(如年龄、性别和病理分期)进行单因素与多因素cox分析,来说明与其他临床因素相比免疫预后模型可做作为独立的预后因素(图6A)。然后使用免疫基因分险模型与临床变量一起构建诺谟图对LUAD患者的预后进行预测(图6B),并使用 C‐index评估诺模图的准确性,结果表明理想模型相比,碎石图表现出良好的一致性,这说明本次作者构建的诺模图在临床实践中对LUAD患者预后的预测具有稳定性(图6C)。在最后,作者比较了免疫基因风险模型、病理分期和列线图的对患者预后预测准确性(图6D)。

五.     结果图片

attachments-2020-06-FsdiI6nw5ee10154ac13a.png

1 LUAD肿瘤组织和正常组织中筛选DEGsDEGs功能富集分析

attachments-2020-06-6RHoie0C5ee1024c00fad.png

2 构建免疫基因预后模型

attachments-2020-06-268PePCl5ee10265b252c.png

3.免疫预后模型与免疫的相关性

attachments-2020-06-MU2IWUOm5ee1027433d43.png

4 风险模型基因与免疫的风的关系

attachments-2020-06-n2ubgBw85ee102861534a.png

5 免疫基因模型基因功能分析

attachments-2020-06-vHsbFgcj5ee10296d087f.png


6 诺莫图预测LUAD患者的OS

  • 发表于 2020-06-10 23:20
  • 阅读 ( 6564 )
  • 分类:文献解读

0 条评论

请先 登录 后评论
不写代码的码农
欢乐豆

5 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章