看教程不够直观,那就看视频吧! >>点击加载视频
欢迎关注"生信修炼手册"!
之前的文章中介绍了annovar软件的使用,除了annovar以外,snpEff 也是常用的一款突变位点注释工具。
这款软件基于java语言进行开发,安装过程相对简单,下载之后解压缩即可。本篇对该软件的使用进行一个简介。
命令如下
java -jar snpEff.jar databases > snpEff.databases.list.txt
目前共有42791个数据库,snpEff.databases.list.txt
文件内容如下
给出了物种可用的数据库和对应的下载链接。
以human
为例,首先查看有哪些数据库
grep -i “Homo_sapiens” snpEff.databases.list.txt | cut -f1
GRCh37.75 GRCh38.86 hg19 hg19kg hg38 hg38kg testHg19ChrM
以GRCh38.86
数据库为例,下载的命令如下
java -jar snpEff.jar download GRCh38.86
下载成功之后,在软件安装目录的data
文件夹下,会有一个以数据库名字命名的文件夹,里面就是下载好的所有文件
GRCh38.86/ ├── cytoBand.txt.gz ├── interactions.bin ├── motif.bin ├── nextProt.bin ├── pwms.bin ├── sequence.X.bin ├── sequence.Y.bin └── snpEffectPredictor.bin
命令如下:
java -jar snpEff.jar GRCh38.86 examples/test.chr22.vcf > test.chr22.ann.vcf
GRCh38.86
代表数据库的名字,test.chr22.vcf
为输入文件,输入文件格式为VCF, 内容如下
输出文件test.chr22.ann.vcf
内容如下
可以看到,就是在输入文件的INFO列新增了一个字段信息,字段的名字叫做ANN
, 关于ANN
中各个部分的详细信息可以参考VCF头部的注释部分。默认情况下会给出以下几种信息,以第一个突变位点为例进行说明
突变之后的碱基,第一个突变位点由T碱基突变成了C碱基,对应Allel的值为C
由sequence ontology
定义的突变类型,第一个突变位点的downstream_gene_variant
在SO系统中的定位如下
如果变异位点属于多个类型时,多个类型之间用&
符号连接,比如
intron_variant&nc_transcript_variant
对变异位点有害程度的简单评估,取值有HIGH
, MODERATE
, LOW
, MODIFIER
4种,含义如下
基因名称
基因ID
想要分析的特征类型,transcript, motif, miRNA 等
根据Feature Type
指定的特征,给出对应的ID
转录本类型, 通常采用Ensembl数据库的转录本类型
只有当变异位点位于基因区域时才有值,会给出变异位点所处的exon/intron的编号和该基因的exon/intron的总数,比如一个突变位点位于基因的第3个exon上,该基因一共有12个exon, 对应的Rank的值为3/12
当变异位点位于基因区域以外时,该字段的值为空
采用HGVS
标准命名的基因水平的变异情况
采用HGVS
标准命名的蛋白质水平的变异情况,只有当突变位点位于编码区是才会有值
突变位点在cDNA上的位置/cDNA的总长度
突变位点在CDS上的位置/CDS的总长度
突变位点在氨基酸序列上的位置/氨基酸序列的总长度
变异位点与最近的特征的距离,当变异位点位于基因间区时,会给出与最近的基因之间的距离;当变异位点位于exon区域时,会给出与最近的内含子边界的距离,不同的情况,距离的定义不同。
对注释结果的可靠程度进行评估,各种取值代表的含义如下图
扫描关注微信号,更多精彩内容等着你!
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!