基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析mRNA 和EST数据以直接得到结果; (2) 通过相似性比对从已知基因和蛋白质序列得到间接证据; (3) 基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1) 序列数据库相似性搜索; (2) 序列模体(Motif) 搜索; (3) 直系同源序列聚类分析(Cluster of orthologousgroup ,COG) 。随着微生物全基因组序列测定速率的加快,开发有Web 接口的高效、综合基因组注释系统十分必要。近年来,国际上已有一些这样的工具,如基于Java 的微生物基因组数据库接口。尽管JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大 ,适用范围广,但没有便于操作的图形界面,而且需要较强的硬件系统支持。目前,微生物基因组全序列测定通常由中小实验室独立完成,有必要开发和集成基于PCPLinux 系统并以免费数据库管理系统、免费软件和公共数据库资源为主的基因组信息注释系统。