看教程不够直观,那就看视频吧! >>点击加载视频
今天我的一个师妹发现 TCGA下载的甲基化450k的数据注释中存在五千来个位点注释的位置一致,顺便给我丢了两个位点cg02493986和cg04652208;查阅之后发现这两个位点确实注释在了同一个位置上,这就很匪夷所思了。
本来以为偶然错误,结果师妹丢过来一篇11分的文章,里面的补充材料(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5389466/#sup1)也存在这样的错误,看来这事不小。
经过仔细的比对和查阅发现 TCGA官网提供下载的 甲基化数据是每个样本一个文件的,每个文件里第一列为cpg位点,第二列为甲基化β值,第三列开始是基因组注释信息,这个注释信息中 就有约五千个左右的位点注释信息 有问题,和其他的位点重复,所以但凡是拿TCGA 甲基化数据并使用其注释信息的都有可能有这个问题,大家自己仔细比对一下。
这里有GEO的450k的注释信息:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?mode=raw&is_datatable=true&acc=GPL13534&id=11288&db=GeoDb_blob92 大家可以参考着用。
ps:这些位点可能不是错误注释,有可能本身探针存在多匹配的情况,所以做分析的时候注意一下。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!