snpEff : 突变位点注释的又一利器

欢迎关注"生信修炼手册"! 之前的文章中介绍了annovar软件的使用,除了annovar以外,snpEff 也是常用的一款突变位点注释工具。这款软件基于java语言进行开发,安装过程相对简单,下载之后解压

欢迎关注"生信修炼手册"!

之前的文章中介绍了annovar软件的使用,除了annovar以外,snpEff 也是常用的一款突变位点注释工具。

这款软件基于java语言进行开发,安装过程相对简单,下载之后解压缩即可。本篇对该软件的使用进行一个简介。

1. 查询所有可用的数据库列表

命令如下

java -jar snpEff.jar databases > snpEff.databases.list.txt

目前共有42791个数据库,snpEff.databases.list.txt文件内容如下

给出了物种可用的数据库和对应的下载链接。

2. 下载数据库

human为例,首先查看有哪些数据库

grep -i “Homo_sapiens” snpEff.databases.list.txt | cut -f1

GRCh37.75                                                    GRCh38.86                                                    hg19                                                         hg19kg                                                       hg38                                                         hg38kg                                                       testHg19ChrM

GRCh38.86数据库为例,下载的命令如下

java -jar snpEff.jar download GRCh38.86

下载成功之后,在软件安装目录的data文件夹下,会有一个以数据库名字命名的文件夹,里面就是下载好的所有文件

GRCh38.86/ ├── cytoBand.txt.gz ├── interactions.bin ├── motif.bin ├── nextProt.bin ├── pwms.bin ├── sequence.X.bin ├── sequence.Y.bin └── snpEffectPredictor.bin

3. 进行注释

命令如下:

java -jar snpEff.jar  GRCh38.86 examples/test.chr22.vcf > test.chr22.ann.vcf

GRCh38.86代表数据库的名字,test.chr22.vcf为输入文件,输入文件格式为VCF, 内容如下

输出文件test.chr22.ann.vcf内容如下

可以看到,就是在输入文件的INFO列新增了一个字段信息,字段的名字叫做ANN, 关于ANN中各个部分的详细信息可以参考VCF头部的注释部分。默认情况下会给出以下几种信息,以第一个突变位点为例进行说明

1. Allele

突变之后的碱基,第一个突变位点由T碱基突变成了C碱基,对应Allel的值为C

2.Annotation

sequence ontology定义的突变类型,第一个突变位点的downstream_gene_variant在SO系统中的定位如下

如果变异位点属于多个类型时,多个类型之间用&符号连接,比如

intron_variant&nc_transcript_variant

3. Annotation_Impact

对变异位点有害程度的简单评估,取值有HIGH, MODERATE, LOW, MODIFIER 4种,含义如下

4. Gene_Name

基因名称

5. Gene_ID

基因ID

6. Feature_Type

想要分析的特征类型,transcript, motif, miRNA 等

7. Feature_ID

根据Feature Type指定的特征,给出对应的ID

8. Transcript_BioType

转录本类型, 通常采用Ensembl数据库的转录本类型

9. Rank

只有当变异位点位于基因区域时才有值,会给出变异位点所处的exon/intron的编号和该基因的exon/intron的总数,比如一个突变位点位于基因的第3个exon上,该基因一共有12个exon, 对应的Rank的值为3/12
当变异位点位于基因区域以外时,该字段的值为空

10. HGVS.c

采用HGVS标准命名的基因水平的变异情况

11. HGVS.p

采用HGVS标准命名的蛋白质水平的变异情况,只有当突变位点位于编码区是才会有值

12. cDNA.pos/cDNA.length

突变位点在cDNA上的位置/cDNA的总长度

13. CDS.pos/CDS.length

突变位点在CDS上的位置/CDS的总长度

14. AA.pos/AA.length

突变位点在氨基酸序列上的位置/氨基酸序列的总长度

15. Distance

变异位点与最近的特征的距离,当变异位点位于基因间区时,会给出与最近的基因之间的距离;当变异位点位于exon区域时,会给出与最近的内含子边界的距离,不同的情况,距离的定义不同。

16. ERRORS/WARNINGS/INFO

对注释结果的可靠程度进行评估,各种取值代表的含义如下图


扫描关注微信号,更多精彩内容等着你!


转自:生信修炼手册
  • 发表于 2018-08-30 08:54
  • 阅读 ( 13006 )
  • 分类:基因组学

0 条评论

请先 登录 后评论
不写代码的码农
生信

2 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章