看教程不够直观,那就看视频吧! >>点击加载视频
数据准备
1、下载TCGA RNA-Seq数据,我们使用TCGA简易下载工具进行下载,因为我们是做预后所以就没有显著正常样本,如图共有407个样本(这是包含所有可下载的样本,要全部下载就将右上角的复选框全部取消勾选即可):
下载完成,我们点击合并文件功能进行数据合并
因为FPKM数据区间跨度太大,我们将其转换成TPM,使用TCGA RNA-Seq归一化工具
转换完成之后得到了新的矩阵,但是这个矩阵中包含有六万多个转录本,这里面包含了编码基因和lncRNA,所以我们使用TCGA简易下载工具的ENSG_ID转换工具进行转换提取
将Merge_Matrix.TPM.txt导入到TCGA简易下载工具使用ENSG_ID进行转换得到lncRNA和编码基因的表达矩阵
2、下载TCGA Clinical数据,因为Clinical 数据是针对于病人的,也就是说没有癌与癌旁等组织之分了,共有443个病人的随访数据
下载完成之后我们点击ClinicalFull按钮提取我们的临床信息,不懂解读的看这里:TCGA临床病理随访资料解读
随访数据解读和处理,打开合并后的临床数据表格找到这三列
第一个红色箭头处表示样本编号我们将其复制出来作为预后数据的第一列,第二第三个箭头处分别表示死亡时间和最后一次随访时间,我们将其合并成一列,因为两列是互斥的,有死亡时间就木有最后随访时间,木有死亡时间的就有最后随访时间
简单处理方法将Not Available、Not Applicable替换为0,然后两列相加即可,如
最后我们找到死亡事件列
复制到我们的样本信息表中,当然仔细比对之后发现有些时间数据丢失的比如下图
这种样本我们删除掉即可,共有两例
最终表格形式如:
另存为txt文件如
开始做生存分析
我们选择编码基因的表达谱来做TCGA生存分析,将样本信息和表达谱导入到批量计算生存分析工具如
注意图中红色圈圈里的,一定要选择正确,我这里选择TCGA数据集,日期选择days,选择随访信息大于30天的的样本,程序会自动匹配满足条件的样本,如图中匹配上234个样本,如果没有选对会报没有匹配的样本错误
坐等跑完,可能需要一点时间
跑完后我们发现只有一万三千多个基因,实际上我们有一万九千多个基因,其他基因去哪里了呢,剔除的这些基因是因为他们在匹配上的234个样本中表达水平怪异比如很多的0或者很多很大的值,无法做生存分析
进一步的导出结果就行
其他的画图功能双击运行的结果就可以画了,另外注意的是结果中的HR是取了log自然对数之后的HR值
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!