看教程不够直观,那就看视频吧! >>点击加载视频
SIFT
——预测氨基酸替代是否影响蛋白功能
SIFT是预测氨基酸替代是否影响蛋白功能的开放性工具,由A*STAR(Agency for Science, Technology and Research)资金赞助,GIS (Genome Institue of Singapore)Paulien Ng组维护,BII(Bioinformatics Institute)支持服务器。
SIFT功能
SIFT根据同源序列,从氨基酸替代中发现有害替代,预测这个氨基酸替代是否会影响表型。SIFT根据蛋白进化与蛋白功能相关的假设,位置对于功能很重要,那么在蛋白家族比对时,位置应该是保守的,而不重要的位置是多样化的。
SIFT能够为您分析哪些问题?
1. 如果您有一个感兴趣的蛋白,希望哪些氨基酸变异会影响蛋白功能。将序列上传到SIFT,在产生结果分数文件中,有害替代区域会被红色突出标记,您可以选择这些区域进行变异。
2. 如果您有单个氨基酸替代的蛋白,在进行功能分析实验前,SIFT能够预测哪些变异会影响表型。
SIFT如何进行预测?
SIFT根据一条待预测序列和多种比对信息,预测这条序列每个位置的无害替代和有害替代。SIFT预测是一个多步骤过程:1. 搜索类似序列;2. 选择最相关的序列,与查询序列具有相似功能;3. 对上步骤选择的序列进行比对;4. 根据比对结果,计算所有可能的替代是正常的可能性。正常可能性<0.05的位置被预测为有害,正常可能性≥0.05,则预测为无害。
或者,根据保守性进行SIFT预测:在原来版本的SIFT,可以加入任意条序列。现在的版本,用户设置的序列数量的阈值来限定序列数量。
如果序列预测根据多样性(低保守阈值),只有在高度保守位置的替代会被预测为有害。如果用于预测的序列之间非常相似(高保守阈值),那么大多数替代会被预测为有害。
通过对比试验数据,我们发现替代正常可能性<0.05是有害的,我们把0.05作为预测阈值。我们强烈建议用户手动检查替代正常可能性,如果你的替代正常可能性稍大于0.05,你可能认为这个替代是有害的。
上传数据类型
您可以上传一条蛋白序列(预测速度慢),或者待预测序列和一些相关的序列(预测速度快),或者待预测序列与相关序列的比对结果(预测速度更快)。上传数据类型如下:
1. 一个NCBI GI #
您可以上传一个NCBI GI #id进行SIFT预测,预测根据提前计算的BLAST搜索和一分钟内的反馈信息。
2. 一条序列
您可以上传一条蛋白序列(FASTA格式)与一组相关的序列。
如果您知道与待预测序列相关的蛋白,你可以上传查询序列和这些相关的序列,这样计算速度会更快。在上传的文件中,将待预测序列作为第一条序列(FASTA格式)。请注意,FASTA序列开头第一个字母是特别的。例如,下面的两条序列。
>A8T644PCSK9 PANTR PROPROTEIN CONVERTASE SUBTILISIN⁄KEXIN TYPE 9 OS=PAN TROGLODYTES
>A8T655PCSK9 PANPA PROPROTEIN CONVERTASE SUBTILISIN⁄KEXIN TYPE 9 OS=PAN PANISCUS
而这两条序列缺不行,因为它们开头都是SP,系统无法区分。
>SP A8T644PCSK9 PANTR PROPROTEIN CONVERTASE SUBTILISIN⁄KEXIN TYPE 9 OS=PAN TROGLODYTES
>SP A8T655PCSK9 PANPA PROPROTEIN CONVERTASE SUBTILISIN⁄KEXIN TYPE 9 OS=PAN PANISCUS
3. 多重比对结果
若果您有感兴趣序列的多重比对结果,能够以CLUSTAL, MSF或FASTA格式上传。您的蛋白序列应该放再文件首位,比对的长度应该与待预测蛋白的长度一致,待预测的蛋白序列中没有空位。
4. 替换
SIFT根据分数预测替换是有害还是无害。替换的格式是X#Y,X表示原来的氨基酸,#表示替换的位置,Y表示新氨基酸。每行只能有一个替换。如下所示。
M1Y
K3S
T4P
SIFT输出结果
SIFT对替换氨基酸的预测
输出结果 | 详细信息 |
SIFT分数 | 数值范围0-1,分数≤0.05,预测氨基酸替换是有害的;分数>0.05,则是无害的。 |
中位数序列信息 | 数值范围0-4.32,理想情况下,数值范围是2.75-3.5。中位数序列信息用于衡量预测序列多样性。如果数值>3.25时,会出现警告,因为这表示这个预测是根据非常相关的序列。 |
位置的序列数量 | 在预测位置有一个氨基酸的序列数量。SIFT自动选择序列,但是如果这个替代位于蛋白序列首或尾,那么只有一些序列满足条件。这栏是预测这方面的。 |
示例:预测单条蛋白序列
以单条蛋白序列为例,查看SIFT对序列的预测结果。
步骤,
1. 在如下图位置,粘贴FASTA格式序列一条蛋白序列。也可以上传FASTA格式的文件。
2. 设置参数
3. 提交后,等待结果,SIFT预测结果报告如下图所示,您可以逐一查看每项结果。您可以根据这些结果,选择性对某些位置氨基酸进行变异,预测蛋白功能。
(1)这条蛋白序列,每个位置的氨基酸被替代的正常可能性表格,如下图所示(截取部分)。
上图中,每行表示参考蛋白中的对应位置,每个位置下面是这条序列的氨基酸。每列表示20种氨基酸中的一种。每个条目报名一个氨基酸替换对应的某一个特定位置的分数,有害替换被红色突出标注。
(2)位置预测
氨基酸替代是否有害的阈值是0.05。氨基酸颜色说明:黑色表示非极性氨基酸,绿色表示极性不带电荷的氨基酸,红色表示碱性氨基酸,蓝色表示酸性氨基酸。大写字母表示氨基酸出现在比对中,小写字母来自预测。“Seq Rep”是包括碱性氨基酸的序列片段,短片段表示这个位置要么有很多空位,要么因为信息少而不能比对。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!