五分钟搞定一个芯片的重注释，让那些没有genesymbol的数据再次好用

我们做芯片数据分析的时候经常会遇到有些基因芯片根本没有geneSymbol，或者有些lncRNA芯片根本没有像样的名称，故此对我们后续的分析也造成了不少的麻烦，基于此我们可以通过序列比对的方式将...

我们做芯片数据分析的时候经常会遇到有些基因芯片根本没有geneSymbol，或者有些lncRNA芯片根本没有像样的名称，故此对我们后续的分析也造成了不少的麻烦，基于此我们可以通过序列比对的方式将探针序列重新比对到转录本上，从而拿到最新的基因编号，本文以HuGene-1_0-st探针为例

这个平台官网提供的注释信息根本没有genesymbol,只有genebank ID,这就很尴尬了，后续的分析很多都很不方便

不过不要紧，我们可以使用芯片重注释技术根据探针序列将这些探针重新比对到各个转录本中，从而拿到统一的基因ID

首先根据教程 https://shengxin.ren/article/439 我们下载作为参考转录本文件的序列

然后我们从芯片官网找到探针序列的文件

注：存档文件上面的日期选择越近越好，还有就是下载完后打开序列文件看看探针的ID 对不对的上，有时候探针序列上的ID不一定是探针ID，此时需要再找找看其他的

导入 SeqMap序列比对工具

等待比对完成

注意我们的探针ID

然后将结果导入到基因注释工具

设置正确的分割条件，将最终的ID给提取出来，稍作等待之后，最终得到match_clear文件

用Excel打开，我们可以看到文件分三列，第一列为探针，但是都多了 TranscriptClusterID=，我们把他替换掉，最终得到了探针ID对应基因ID的文件

我们可根据这个文件作为背景文件，使用ID转换器从探针表达谱中转换得到ENSG表达谱，再次转换便可得到genesymbol表达谱

比如探针ID:7896746 原来的注释如下：

新注释的信息如下：

从数据库查阅到的如下：

16 条评论