对方向扔了一个赤果果的生信分析SCI思路

很久没有写稿子了,今天给大家分享一篇纯生信的SCI,思路简单粗暴。文章2017年发表在Oncotarget上(虽然已经牺牲了),但是我们可以取其精华呀,只要还有值得我们学习的地方,我们就挖掘出来。


很久没有写稿子了,今天给大家分享一篇纯生信的SCI,思路简单粗暴。

文章2017年发表在Oncotarget上(虽然已经牺牲了),但是我们可以取其精华呀,只要还有值得我们学习的地方,我们就挖掘出来。

 

摘要部分看完大概知道文章找了些结直肠癌中差异的上百了lncRNA,后来从中缩小到了8个lncRNA,然后弄了一个基于SVM的风险分类模型来区分早期结直肠癌中的高风险病人,然后还做了通路富集分析啦。

首先用第一个数据集GSE37892做了差异分析(分组是early stage Vs. advanced stage),找到几百个差异lncRNA,然后分层聚类分析下,明显分层两类,虽然有点点小瑕疵,效果还算不错。

然后顺便比较了用差异基因分出的两组病人的生存分析(kaplan-meier),这种结果根本不用想肯定会比较好啦,用差异基因分出来的组,几乎就是在做advanced stage跟early stage组的生存率比较,不符合才怪呢。总不可能就用上百个基因这么去分类吧,因此接下来作者用随机森林(random forest supervised classification algorithm)算法做了降维处理(有个R包可以做啦),筛选了8个lncRNA。

列下这8个lncRNA的大概信息,然后用这8个lncRNA来聚类看下:

同样是聚类热图加生存分析比较,发现用8个lncRNA也能分开,而且也不错,同样的比较两Cluster的生存情况,当然结果还是不错啦。

然后还是在这个Training 数据集,作者将这8个biomarker放到一个基于SVM的风险分类模型,做了ROC曲线,AUC非常高,当然生存分析比较还是很好滴。

接下来要用外部数据集验证下了,称为Testing数据集,发现聚类结果还勉强吧,同样的ROC曲线评估下,AUC其实不是太好,但是还算勉强吧,这里同样可以有个两组的生存分析比较。

然后就是我们的老朋友DAVID做了功能富集分析。

作者找了跟这8个lncRNA表达相关的mRNA做富集,认为这些是与8个lncRNA相关的研究通路,然后就没有然后了,大家都去研究吧,它们很重要。

 

总的来讲文章的思路可以说简单粗暴了,比如我们是不是可以找更大的数据集来验证呢?既然是做肿瘤为何不用TCGA数据库辅助呢,还可以探索这8个lncRNA与其它临床信息的关联呀。内容分享完了,希望对大家有帮助!

 

欢迎关注生信人

TCGA | 小工具 | 数据库 |组装注释 |   基因家族  |  Pvalue

基因预测  |bestorf |  sci NAR | 在线工具 | 生存分析 | 热图

 生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos

 舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 |  进化 | 测序简史


转自:生信人
  • 发表于 2018-12-04 21:32
  • 阅读 ( 7856 )
  • 分类:转录组学

0 条评论

请先 登录 后评论
不写代码的码农
生信分析流

FBI

55 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章