批量生存分析工具录入数据后乱码,绝望了。。。

问题1.样本表达矩阵:用Excel打开Clinical.merge.txt文件,分别复制followup_barcode、days_to_last_followup、vital_status四列,并另存为txt文件,用批量生存分析工具尝试打开,未出现乱码。接着把Not Applicable、Not Available替换成0,把Alive和Dead分别替换成0和1。再次尝试用工具打开,出现乱码(按照建议尝试过将列名字改短,删除特殊符号等,结果还是一样不行,原本保留followup_barcode、days_to_last_followup,删除后一样出错)

attachments-2017-11-P7UOD0D45a17dcb7b09ff.

问题2:原始文件Clinical.merge.txt,有两列是followup_barcode,一列是后面多带了一串数字,未附带一串数字的followup_barcode列,利用Excel查重发现会出现重复项,考虑是否因为重复项引起录入错,换用另一列附带一串数字的followup_barcode列,结果还是一样(网上的教程给出的是附带一串字符的followup_barcode列)。

问题3:仔细查看RNA-Seq表达矩阵文件的样本名字跟Clinical.merge.txt文件的样本名字有一点差异,两者有差异工具时如何一一匹配的呢?attachments-2017-11-xes4MTt95a17dfc9e5fd5.这个是Merge_Matrix.TPM.txt.cv的行名

Clinical.merge.txt文件的样本名,见上面的附图。两者是有差异的。

希望帮忙解答,万分感谢!


请先 登录 后评论

1 个回答

祝让飞 - 生物信息工程师

你的这个应该是表达谱保存时的编码方式问题,你另存为TXT的时候选择的是什么,比如:

attachments-2017-11-hrt78lkj5a1803f976055.png

请先 登录 后评论
  • 2 关注
  • 0 收藏,2283 浏览
  • Survive 提出于 2017-11-24 17:04

相似问题