第三篇lncRNA signature的文章解析,IF五分胶质瘤

这是一篇比较老的建模的文章,发表在Neurobiology of Disease上,目前影响因子五分多点。 Long non-coding RNA expression profiles predict clinical phenotypes in glioma 本文从lncRNA...

这是一篇比较老的建模的文章,发表在Neurobiology of Disease上,目前影响因子五分多点。

Long non-coding RNA expression profiles predict clinical phenotypes in glioma

attachments-2018-10-6O8p44B15bbc63f4b9014.png


本文从lncRNA角度出发,分析了lncRNA在胶质瘤中的预后价值,进一步构建了预后模型来对胶质瘤患者进行风险分类,基本流程图如下:

attachments-2018-10-lqtkZYrG5bbc64e8e5bab.png

从流程图中可以看出作者首先通过芯片表达谱数据提取lncRNA,然后进行模型构建,最后使用验证数据集进行验证。

下面我们来一步一步的解析一下

1、数据获取

从GEO数据库中下载了GSE16011和GSE4290的原始数据CEL,采用较大的数据集(GSE16011)作为训练集,较小的数据集(GSE4290)作为验证集;

GSE16011共包含268个样本,其中包含13个low-grade astrocytomas (WHO grade 2),175个high-grade astrocytomas (WHO grade 3 and 4),11个low-grade

oligodendrogliomas (WHO grade 2), 69个high-grade oligodendrogliomas(WHO grade 3), as well as 8个non-tumoral brain tissue controls;

GSE4290共包含157个样本,其中包含7个low-grade astrocytomas(WHO grade 2), 100个high-grade astrocytomas (WHO grade 3 and4), 38个low-grade oligodendrogliomas (WHO grade 2), 12个high-

grade oligodendrogliomas (WHO grade 3), and 23个non-tumoral brain controls。

2、数据处理

首先使用RMA对原始CEL数据进行标准化得到探针表达谱

3、lncRNA提取

首先下载NetAffx的注释文件,

一、将探针对应的RefSeq ID上,然后提取出NR_开头的探针,NR代表非编码的,作为预选的lncRNA

二、同时将探针对应ENSG ID上,然后根据Ensembl数据库的基因注释信息,提取属性为:“lincRNA”, “processed transcripts”, “non-coding” or “misc_RNA”的探针,作为预选的lncRNA

三、合并一和二的结果,进一步去除基因属性为:pseudogenes, rRNAs, microRNAs and other short RNAs including tRNAs, snRNAs and snoRNAs

最终得到2448个lncRNA

4、差异分析

作者使用SAM来进行差异的筛选,分析了正常脑组织和其他各个阶段的肿瘤组织的差异,选择阈值为FDR<0.1和Foldchange大于两倍。

attachments-2018-10-q5X8jmYA5bbc6d3e75f86.png

未完待续








  • 发表于 2018-10-09 17:06
  • 阅读 ( 5245 )

1 条评论

请先 登录 后评论
不写代码的码农
祝让飞

生物信息工程师

118 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章