strings 的回答 - 生信人

0 赞同

Z score

可以，z-score是一种常见的标准化方法。在文献里看到热图中数值有正有负，就是z-score了。

回答于 2017-12-30 19:08

1 赞同

google搜索SRA号

回答于 2017-12-25 14:46

0 赞同

样本的分组有意义，而样本号是没意义的。建议删掉样本号。

回答于 2017-12-22 10:55

0 赞同

我用下载小工具做过ID转换。

回答于 2017-12-22 09:37

0 赞同

数量不一致是正常的。原因是：一个TCGA的样本可能经过两次RNA-seq（比如，标有r1的）；一个个体可能有癌和癌旁（标有01和11等）。因此，TCGA表达量数据的数量，一定是多于临床数据的。通常会用R语言进行匹配。基本思路是把样本编号取前面表示个体的部分，然后与临床数据的编号匹配。

回答于 2017-12-22 09:36

1 赞同

生信很大的工作量是在做格式转换。如果你知道后续分析的输入格式，不妨在excel或txt里做一些修改，再保存一下就好了。

回答于 2017-12-22 09:33

0 赞同

看报错。java程序的报错是相对完善的，能提供修改的信息。

回答于 2017-12-19 09:27

0 赞同

做生存分析时，终点是1，失访是0，随访结束时未出现终点事件是0。其中，终点指的是复发或死亡。如果3年内没有复发或死亡，指的就是随访结束时未出现终点事件。统计方法是“Kaplan-Meier Curves (Logrank Tests)”。

回答于 2017-12-12 13:53

1 赞同

R可调用内存不足的问题，请见Stackoverflow网站的相似问题

回答于 2017-12-07 10:32

0 赞同

从原理上讲， HaplotypeCaller是与ref（通常是hg19）比较，得到germline数据。 Mutect2是与该样本对应的癌旁比较，得到针对该样本的somatic数据。因此，HC不能做somatic。

回答于 2017-12-06 09:31