文章解读：乳腺癌甲基化分型的TCGA公共数据挖掘文章思路解析

这是一篇发表在五分多的杂志上的纯生信的文章，思路清晰，数据获取简便，在其他的癌症的分析中可以套用。

文章原文：Specific breast cancer prognosis-subtype distinctions based on DNA methylation patterns.

可在“桑格助手”公众号输入：29675884 获取文章原文全文

这是一篇发表在五分多的杂志上的纯生信的文章，思路清晰，数据获取简便，在其他的癌症的分析中可以套用。

文章背景：

1、乳腺癌的分子分型：Chen et al等人的研究小于40岁的乳腺癌患者，通过单变量和多变量分析并证实分子分型可以作为年轻的乳腺癌患者的一个独立的预后因素，三阴性乳腺癌具有较高的复发率和致死性。Sorlie et al等人通过水平层次聚类发现ER+ breast tumors可以分为2个亚组，这2个亚组具有不同的表达谱和预后，进一步证实luminal具有较好的预后。Curtis et al通过对200个乳腺癌样本联合基因表达谱和拷贝数变异数据将样本分为10个IntClust subclasses。

2、甲基化与乳腺癌：基因改变对癌症的发生具有影响，如突变、重组、拷贝数改变等，表观遗传的改变如DNA甲基化对癌症的发展起到关键的作用。CpG岛的高甲基化导致肿瘤抑制基因的转录沉默，然而致癌基因的低甲基化将导致致癌基因的激活。Fleischer et al.等人的研究证明在原位癌和早期的乳腺癌进程的早期中表观遗传的改变，这提供了在临床上运用DNA甲基化作为标志物的可能性以及表观遗传的改变在肿瘤中的重要性。DNA甲基化表达谱可以作为一个潜在的临床工具用于对肿瘤微环境和细胞类型的特征研究，以及评价肿瘤的免疫应答，提高乳腺癌和其他癌症的诊断和治疗。先前的研究表明，BRCA1启动子的甲基化跟肿瘤的临床分析存在相关性。所以，基因的甲基化可以作为乳腺癌分子subtyping的一种标志物。Thomas et al.开发了一个SAM40，通过41个显著差异的甲基化基因将Luminal A分为2个亚组，一组具有好的预后，另外一组具有较差的预后。Rønneberg et al.根据基因的甲基化谱识别出了3个主要的簇，一组包含主要包含myoepithelial来源的肿瘤，另外2组主要是luminal epithelial来源的肿瘤。Holm et al.等通过807 cancer-related genes的甲基化芯片对189 fresh frozen primary breast tumors and four normal breast tissue samples分析发现basal-like, luminal A and luminal B乳腺癌具有特异的甲基化表达谱。进一步，该作者整合了different types of genome-wide data, not limited to methylation，不仅仅限制于甲基化，提高对乳腺癌的描述。Conway et al.通过基因甲基化谱识别出乳腺癌的4个亚型，但是他们的分类器描述的不够详细，并且每一个特定的亚组中的甲基化并不清楚。

在本研究中，作者基于TCGA的乳腺癌的甲基化谱识别出预后特异的甲基化构建了乳腺癌的分类器。该分类器可以帮助识别出新的乳腺癌标志物或者是分子分组将乳腺癌患者更加准确的细分。进一步，该分类器可以为临床医生关于不同表观遗传亚型的诊断和预后提供指导。除此之外，通过识别出的亚型特异的分子为乳腺癌的精准医疗提供多个靶标

基本步骤：

1、从TCGA下载甲基化450k的数据

2、对数据进行预处理：过滤缺失值，可补全缺失值，去除批次效应，去除不稳定的CpG位点，选择在启动子区域的甲基化位点作为最终的甲基化表达谱

3、从TCGA下载表达谱数据（RNA-Seq):level3的数据集

4、对数据进行预处理：过滤缺失值，补全缺失值，去除批次效应。

5、样本选择：选择同时具有甲基化和表达谱数据的样本

6、样本分组：将样本分成训练集和测试集：随机分组，保证两组样本中的病人临床分期、年龄、随访时间等分布一致。

7、初步筛选分类器的分类特征：对每一个甲基化位点、年龄、分期、ER类型进行单因素Cox分析，选择显著的分类特征。

8、进一步筛选甲基化位点：通过step7发现年龄和分期对预后的影响是显著的，进一步使用年龄和分期作为协变量引入Cox,再进一步对每一个显著的甲基化位点进行Cox多变量（三个变量：年龄，分期,甲基化位点）分析，筛选显著的甲基化位点，作为后续的分类变量（潜在的甲基化biomark）。

9、筛选乳腺癌分子亚型：使用R包ConsensusClusterPlus对这些潜在的甲基化biomark的表达谱进行一致性聚类分析，寻找不同的分子亚型。

10、不同的分子亚型的预后差异分析：使用Kaplan-Meier方法对不同的分子亚型进行预后差异分析，观察不同的分子亚型的预后差异，同时分析不同的分子亚型的临床特征的差异。

11、筛选分子亚型特异的甲基化位点：使用QDMR软件分析筛选出来的这些分子亚型中特异的甲基化位点。

12、构建预后模型：基于贝叶斯网络分类器模型和模型检测构建乳腺癌的预后模型

13、外部数据集验证：使用验证集验证模型的可靠性、并同时找了一套GEO的数据（GSE72251）作为外部数据集验证。

整篇文章思路可以总结为以上十三步，每一步都值得效仿学习。

详细的文章解读可在这里下载：支持一碗面

发表于 2018-05-01 15:04
阅读 ( 14405 )
分类：文献解读

文章解读：乳腺癌甲基化分型的TCGA公共数据挖掘文章思路解析

你可能感兴趣的文章

相关问题

2 条评论

作家榜 »