警告:TCGA 官网下载甲基化注释文件错误!!!

今天我的一个师妹发现 TCGA下载的甲基化450k的数据注释中存在五千来个位点注释的位置一致,顺便给我丢了两个位点cg02493986和cg04652208;查阅之后发现这两个位点确实注释在了同一个位置上,这...

今天我的一个师妹发现 TCGA下载的甲基化450k的数据注释中存在五千来个位点注释的位置一致,顺便给我丢了两个位点cg02493986和cg04652208;查阅之后发现这两个位点确实注释在了同一个位置上,这就很匪夷所思了。

本来以为偶然错误,结果师妹丢过来一篇11分的文章,里面的补充材料(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5389466/#sup1)也存在这样的错误,看来这事不小。

经过仔细的比对和查阅发现 TCGA官网提供下载的 甲基化数据是每个样本一个文件的,每个文件里第一列为cpg位点,第二列为甲基化β值,第三列开始是基因组注释信息,这个注释信息中 就有约五千个左右的位点注释信息 有问题,和其他的位点重复,所以但凡是拿TCGA 甲基化数据并使用其注释信息的都有可能有这个问题,大家自己仔细比对一下。

这里有GEO的450k的注释信息:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?mode=raw&is_datatable=true&acc=GPL13534&id=11288&db=GeoDb_blob92 大家可以参考着用。

ps:这些位点可能不是错误注释,有可能本身探针存在多匹配的情况,所以做分析的时候注意一下。


  • 发表于 2018-08-08 20:28
  • 阅读 ( 7348 )
  • 分类:新闻资讯

3 条评论

请先 登录 后评论
不写代码的码农
祝让飞

生物信息工程师

118 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章