看教程不够直观,那就看视频吧! >>点击加载视频
TCGA产生背景
目前人们研究最多的疾病非癌症莫属。从人类基因组计划完成后,癌症研究也早已步入基因组学时代,正因如此,人们急需一个能整合多种癌症基因组测序数据的功能强大的数据库平台来直接准确地获得自己需要的研究数据,而不是将精力花在查找文献或在非专门癌症数据平台上查找癌症测序数据。因此,TCGA (The Cancer Genome Atlas http://cancergenome.nih.gov/)数据库的建立为肿瘤学研究带来了历史性变革。
进入21世纪以来,个性化医疗的产生使人类对肿瘤的诊断和治疗早已不再停留在简单的表观阶段,人们渴望通过“上帝视角”来探索肿瘤产生和转移的根本基因学根源,而新一代测序技术的发展使得高效的全基因组测序成为了可能。在这样的大背景下,国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)在2005年发起了TCGA 项目。在十多年的历程中,TCGA收录了美国和加拿大地区11,000多个病人肿瘤组织和与之相匹配的正常组织,约2.5 PB的肿瘤样本高通量基因组测序结果。这些公开的数据被研究界广泛使用,为独立研究人员和TCGA研究网络出版物对癌症的上千项研究做出了贡献
TCGA收录癌症类型
TCGA收录的基因组测序数据涉及到的癌症达33种,包含的组织类型达26种:
ACC、BLCA、BRCA、CESC、CHOL、COAD、DLBC、ESCA、GBM、HNSC、KICH、KIRC、KIRP、LAML、LGG、LIHC、LUAD、LUSC、MESO、OV、PAAD、PCPG、PRAD、READ、SARC、SKCM、STAD、TGCT、THCA、THYM、UCEC、UCS、UVM
TCGA数据类型
TCGA中数据类型主要有SNV(单核苷酸变异)数据、RNA-seq数据、CNV(基因拷贝数变异)数据、甲基化数据、临床数据、miRNA-seq数据,以及生物样本数据。
每个数据类型都有相应的测量工具:
SNV数据有四种:SomaticSniper、MuSE Variant、VarSan2 和MuTect2;
RNA-seq有三种,分别是HTSeq-Counts、HTSeq-FPKM以及HTSeq-FPKM-UQ;Counts只是单纯地计数;FPKM(Fragments Per Kilobase of exon per Million reads)是以转录本为单位来划分所有外显子总长度,标准化后得到的片段计数;FPKM-UQ(Upper Quantile)指以四分位划分。
甲基化测序数据两种:MethyArray 27K和450K数据;
miRNA-seq数据只有一种:BCGSC。
据了解,至少有200种癌症和更多的亚型都是由DNA中错误引起而致细胞不受控制地生长,所以确定每个癌症的完整DNA集合(即其基因组)的变化,并了解这些变化如何相互作用来驱动疾病将为改进癌症预防、早期检测和治疗奠定基础。TCGA创建了一个基因组数据分析流程,可以有效地收集、选择和分析人体组织进行基因组改变,这一过程非常强大。生物信息分析结合收录的病人诊断和治疗信息,肿瘤病理学信息,对肿瘤学的研究推进可以说是质的飞跃。
本篇文章只是对TCGA做了一个极其简单的介绍,希望对大家能有所帮助。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!