SIFT :预测氨基酸替代是否影响蛋白功能的工具

SIFT ——预测氨基酸替代是否影响蛋白功能 SIFT是预测氨基酸替代是否影响蛋白功能的开放性工具,由A*STAR(Agency for Science, Technology and Research)资金赞助,GIS (Genome Institue of ...


SIFT

——预测氨基酸替代是否影响蛋白功能

SIFT是预测氨基酸替代是否影响蛋白功能的开放性工具A*STAR(Agency for Science, Technology and Research)资金赞助,GIS Genome Institue of SingaporePaulien Ng组维护BIIBioinformatics Institute支持服务器

   biocc_83e34e08_b79f_48d6_9668_39614919b2
biocc_061df1f4_f817_4cc1_afc7_9b4c671943
biocc_f52702ce_580d_42bb_8842_8c28fef321

 



SIFT功能

SIFT根据同源序列,从氨基酸替代中发现有害替代,预测这个氨基酸替代是否会影响表型。SIFT根据蛋白进化与蛋白功能相关的假设,位置对于功能很重要,那么在蛋白家族比对时,位置应该是保守的,而不重要的位置是多样化的。

 

SIFT能够为您分析哪些问题?

1. 如果您有一个感兴趣的蛋白,希望哪些氨基酸变异会影响蛋白功能。将序列上传到SIFT,在产生结果分数文件中,有害替代区域会被红色突出标记您可以选择这些区域进行变异

2. 如果您有单个氨基酸替代的蛋白,在进行功能分析实验前,SIFT能够预测哪些变异会影响表型

 

SIFT如何进行预测?

SIFT根据一条预测序列和多种比对信息预测这序列每个位置的无害替代和有害替代SIFT预测是一个多步骤过程1. 搜索类似序列;2. 选择最相关的序列,与查询序列具有相似功能;3. 对上步骤选择的序列进行比对;4. 根据比对结果,计算所有可能的替代是正常的可能性。正常可能性<0.05的位置被预测为有害,正常可能性≥0.05,则预测为无害。

 

或者,根据保守性进行SIFT预测:在原来版本的SIFT,可以加入任意条序列。现在的版本,用户设置的序列数量的阈值来限定序列数量。

如果序列预测根据多样性(低保守阈值),只有在高度保守位置的替代会被预测为有害。如果用于预测的序列之间非常相似(高保守阈值),那么大多数替代会被预测为有害。

通过对比试验数据我们发现替代正常可能性<0.05是有害的,我们把0.05作为预测阈值。我们强烈建议用户手动检查替代正常可能性,如果你的替代正常可能性稍大于0.05,你可能认为这个替代是有害的。

 

上传数据类型

您可以上传一条蛋白序列(预测速度慢),或者待预测序列和一些相关的序列(预测速度快),或者待预测序列与相关序列的比对结果(预测速度更快)。上传数据类型如下:

 

1. 一个NCBI GI #

您可以上传一个NCBI GI #id进行SIFT预测,预测根据提前计算的BLAST搜索和一分钟内的反馈信息。

 

2. 一条序列

可以上传一条蛋白序列FASTA格式)与一组相关的序列

如果您知道与待预测序列相关的蛋白你可以上传查询序列和这些相关的序列这样计算速度会更快在上传的文件中待预测序列作为第一条序列FASTA格式)。请注意,FASTA序列开头第一个字母是特别的例如,下面的两条序列。

>A8T644PCSK9 PANTR PROPROTEIN CONVERTASE SUBTILISIN⁄KEXIN TYPE 9 OS=PAN TROGLODYTES

>A8T655PCSK9 PANPA PROPROTEIN CONVERTASE SUBTILISIN⁄KEXIN TYPE 9 OS=PAN PANISCUS

而这两条序列缺不行,因为它们开头都是SP,系统无法区分。

>SP A8T644PCSK9 PANTR PROPROTEIN CONVERTASE SUBTILISIN⁄KEXIN TYPE 9 OS=PAN TROGLODYTES

>SP A8T655PCSK9 PANPA PROPROTEIN CONVERTASE SUBTILISIN⁄KEXIN TYPE 9 OS=PAN PANISCUS

 

3. 多重比对结果

若果您有感兴趣序列的多重比对结果,能够以CLUSTAL, MSFFASTA格式上传。您的蛋白序列应该放再文件首位,比对的长度应该与待预测蛋白的长度一致,待预测的蛋白序列中没有空位。

 

4. 替换

SIFT根据分数预测替换是有害还是无害替换的格式是X#YX表示原来的氨基酸#表示替换的位置Y表示新氨基酸每行只能有一个替换。如下所示。

M1Y

K3S

T4P

 

SIFT输出结果

SIFT对替换氨基酸的预测

输出结果

详细信息

SIFT分数

数值范围0-1分数≤0.05,预测氨基酸替换有害的;分数>0.05,则是无害的。

中位数序列信息

数值范围0-4.32理想情况下数值范围是2.75-3.5。中位数序列信息用于衡量预测序列多样性。如果数值>3.25时,会出现警告,因为这表示这个预测是根据非常相关的序列。

位置的序列数量

在预测位置有一个氨基酸的序列数量。SIFT自动选择序列,但是如果这个替代位于蛋白序列首或尾,那么只有一些序列满足条件。这栏是预测这方面的。

 

 

示例:预测单条蛋白序列

以单条蛋白序列为例,查看SIFT对序列的预测结果。

步骤

1. 在如下图位置粘贴FASTA格式序列一条蛋白序列也可以上传FASTA格式的文件

 biocc_58498469_87ae_479b_87aa_20311bfdf8

 

2. 设置参数

 biocc_a73f35db_12d5_4234_bf97_ac817e4ac7

3. 提交后,等待结果,SIFT预测结果报告如下图所示,您可以逐一查看每项结果。您可以根据这些结果,选择性对某些位置氨基酸进行变异,预测蛋白功能。

biocc_de3e8767_1a48_4aaf_bbfc_2cd9c5eda1
1)这条蛋白序列,每个位置的氨基酸被替代的正常可能性表格,如下图所示(截取部分)。

 biocc_dc8768bd_66fd_4770_9bf0_72633734ea

上图中,每行表示参考蛋白中的对应位置,每个位置下面是这条序列的氨基酸。每列表示20种氨基酸中的一种。每个条目报名一个氨基酸替换对应的某一个特定位置的分数,有害替换被红色突出标注。

 

2)位置预测

 

biocc_ea413a69_5db4_4d68_8b56_19a1376a04
 

氨基酸替代是否有害的阈值是0.05。氨基酸颜色说明:黑色表示非极性氨基酸,绿色表示极性不带电荷的氨基酸,红色表示碱性氨基酸,蓝色表示酸性氨基酸。大写字母表示氨基酸出现在比对中,小写字母来自预测。“Seq Rep”是包括碱性氨基酸的序列片段,短片段表示这个位置要么有很多空位,要么因为信息少而不能比对。

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
不写代码的码农
SXR

44 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章