TCGA数据发表5分文章

5分TCGA文章的解读

医学研究的目的就是研究疾病的致病机理,找到相关的biomarker,对疾病的预防,诊断和治疗进行指导。癌症做为一种重要的疾病,其致病机理非常的复杂,目前大量研究是从大规模的病例数据中找一些跟治疗,生存预后相关的biomarker。我们曾介绍了一个癌症相关的数据库TCGA,其中含有33多种癌症,11000多个病例,包含多组学数据和临床数据。今天就跟大家介绍一篇发表在Gynecologic Oncology(IF:4.95)上的挖掘TCGA数据的文章“A 15-long non-coding RNA signature to improve prognosis prediction of cervical squamous cell carcinoma”。

研究思路

该文章的研究目的是找到宫颈鳞癌生存相关的biomarker,构建生存分析相关模型,为疾病的治疗和预后进行指导。首先来看一下文章整个思路的流程图
attachments-2018-07-4vk4W3Bg5b3f35ee3cc77.jpg

整个的分析流程非常的清晰,是一个值得借鉴的研究思路,下面我们介绍一下基于这个分析流程的分析结果。

文章具体内容

  1. TCGA下载公开数据  
    TCGA下载到304例宫颈鳞癌的转录组数据,从中提取lncRNA的表达量,并将样品随机分成训练样本和测试样本两组。分成两组的目的主要是为了检验生存预测模型是质量。

  2. lncRNA 表达量筛选
    剔除掉低表达量的lncRNA,保留高表达量的lncRNA。从TCGA下载到14,488个lncRNA, 经过筛选,获得6855个表达量高的lncRNA。

  3. 鉴定和筛选预后相关的lncRNA
    在测试数据集中,通过单因素cox分析,筛选出809个跟预后显著相关的lncRNA,筛选标准为P值小于0.05。由于单因素的分析结果太多,需要采用鲁棒性分析,进一步筛选。

  4. 单因素鲁棒性分析
    鲁棒性筛选,就是对数据集进行多次抽样分析,筛选出那些在多次抽样分析结果中出现频率较高的lncRNA。选择其中显著性lncRNA,再进行下面的多因素分析。attachments-2018-07-hCVjm4Ae5b3f368ac299c.jpg

  5. 多因素分析,构建风险值评估函数
    构建多因素的cox分析模型,并基于多个因素对生存率的影响贡献,构建多因素的风险值预测函数。attachments-2018-07-amL8VIB45b3f367c8c7a6.jpg

    采用ROC曲线优化最佳分类阀值,并在测试数据上验证模型针对风险函数,进行二分类,筛选出一个最优阀值,能将病例样本分成高,低风险两类。分类效果很好,AUC达到0.946。
    attachments-2018-07-V80lvrbE5b3f36535fd83.jpg

    在测试数据集上采用生存分析对风险模型进行验证,发现模型能显著的将样本进行很好的区分。attachments-2018-07-SKgqnBBO5b3f36601cb36.jpg

总结

总体来看,该篇文章思路清晰,结果可靠,操作性强,值得借鉴。

  • 发表于 2018-07-13 10:05
  • 阅读 ( 16166 )
  • 分类:其他组学

3 条评论

请先 登录 后评论
不写代码的码农
组学生物

9 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章