TCGA简介

肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。

网址:https://portal.gdc.cancer.gov/

TCGA中数据类型主要有以下几种:

  • Clinical:病人的一般情况、诊治情况、TNM分期、肿瘤病理、生存情况等

  • mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量

  • microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量

  • Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值

  • Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化

  • Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量

  • Methylation:甲基化芯片测得的DNA甲基化数据

其中mRNA-Seq,miRNA-Seq以及Methylation Array被广泛使用

mRNA-Seq数据分为3种:

  1. HTSeq-Counts
  2. HTSeq-FPKM
  3. HTSeq-FPKM-UQ

前两个比较好理解,第三个跟第二个的区别在于不同的标准化方法,公式可参考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

TCGA数据等级:

  1. level1:原始数据
  2. level2:处理过的数据
  3. level3:经过分割、解释的数据
  4. level4:感兴趣的区域或概要

总而言之,前面2个层级的数据一般是拿不到的,需要权限,一般也只有国外的PI才能申请到(听说的),我们一般拿到的open数据就属于那种已经标准化后的数据

TCGA样本分类:

除了要知道数据等级外,我们还需要了解TCGA的样本分类,比如哪个是正常样本,哪个是肿瘤样本

一般我们可以看到样品名称如:TCGA-19-2619-10A,我们需要关注的是最后一位10A,一般来说01代表癌症样本,11代表癌旁样本。其实从01-09是tumor,癌症样本;10-29是normal,癌旁样本。只是其中分的比较细

具体可参考官网说明:https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode

TCGA数据下载:

官网有自带的下载方式:选中数据 -> 加入购入车 -> download -> cart -> 顺便也下载metadata

还有不少推荐使用Firehose:http://gdac.broadinstitute.org/ -> data-browse -> 然后按照自己需求下载样本数据即可

第一次接触TCGA数据库,初步整理一下,后续根据文献实践再总结分析过程了

  • 发表于 2018-10-23 23:07
  • 阅读 ( 12368 )
  • 分类:默认分类

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
不写代码的码农
孤傲的小丑皇

1 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章