看教程不够直观,那就看视频吧! >>点击加载视频
很久没有写稿子了,今天给大家分享一篇纯生信的SCI,思路简单粗暴。
文章2017年发表在Oncotarget上(虽然已经牺牲了),但是我们可以取其精华呀,只要还有值得我们学习的地方,我们就挖掘出来。
摘要部分看完大概知道文章找了些结直肠癌中差异的上百了lncRNA,后来从中缩小到了8个lncRNA,然后弄了一个基于SVM的风险分类模型来区分早期结直肠癌中的高风险病人,然后还做了通路富集分析啦。
首先用第一个数据集GSE37892做了差异分析(分组是early stage Vs. advanced stage),找到几百个差异lncRNA,然后分层聚类分析下,明显分层两类,虽然有点点小瑕疵,效果还算不错。
然后顺便比较了用差异基因分出的两组病人的生存分析(kaplan-meier),这种结果根本不用想肯定会比较好啦,用差异基因分出来的组,几乎就是在做advanced stage跟early stage组的生存率比较,不符合才怪呢。总不可能就用上百个基因这么去分类吧,因此接下来作者用随机森林(random forest supervised classification algorithm)算法做了降维处理(有个R包可以做啦),筛选了8个lncRNA。
列下这8个lncRNA的大概信息,然后用这8个lncRNA来聚类看下:
同样是聚类热图加生存分析比较,发现用8个lncRNA也能分开,而且也不错,同样的比较两Cluster的生存情况,当然结果还是不错啦。
然后还是在这个Training 数据集,作者将这8个biomarker放到一个基于SVM的风险分类模型,做了ROC曲线,AUC非常高,当然生存分析比较还是很好滴。
接下来要用外部数据集验证下了,称为Testing数据集,发现聚类结果还勉强吧,同样的ROC曲线评估下,AUC其实不是太好,但是还算勉强吧,这里同样可以有个两组的生存分析比较。
然后就是我们的老朋友DAVID做了功能富集分析。
作者找了跟这8个lncRNA表达相关的mRNA做富集,认为这些是与8个lncRNA相关的研究通路,然后就没有然后了,大家都去研究吧,它们很重要。
总的来讲文章的思路可以说简单粗暴了,比如我们是不是可以找更大的数据集来验证呢?既然是做肿瘤为何不用TCGA数据库辅助呢,还可以探索这8个lncRNA与其它临床信息的关联呀。内容分享完了,希望对大家有帮助!
欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!