数量不一致是正常的。原因是:一个TCGA的样本可能经过两次RNA-seq(比如,标有r1的);一个个体可能有癌和癌旁(标有01和11等)。 因此,TCGA表达量数据的数量,一定是多于临床数据的。 通常会用R语言进行匹配。基本思路是把样本编号取前面表示个体的部分,然后与临床数据的编号匹配。
回答于 2017-12-22 09:36
生信很大的工作量是在做格式转换。如果你知道后续分析的输入格式,不妨在excel或txt里做一些修改,再保存一下就好了。
回答于 2017-12-22 09:33
做生存分析时,终点是1,失访是0,随访结束时未出现终点事件是0。其中,终点指的是复发或死亡。如果3年内没有复发或死亡,指的就是随访结束时未出现终点事件。 统计方法是“Kaplan-Meier Curves (Logrank Tests)”。
回答于 2017-12-12 13:53
R可调用内存不足的问题,请见Stackoverflow网站的相似问题
回答于 2017-12-07 10:32
从原理上讲, HaplotypeCaller是与ref(通常是hg19)比较,得到germline数据。 Mutect2是与该样本对应的癌旁比较,得到针对该样本的somatic数据。 因此,HC不能做somatic。
回答于 2017-12-06 09:31