肽的序列查询

介绍

序列查询，其中一个或多个肽分子质量与序列、组成和碎片离子相结合数据，可能是最强大的搜索。通常序列信息的来源是解释 MS/MS 谱图。虽然很难确定一个完整的和来自 MS/MS 光谱的明确肽序列，它是通常可以找到一系列提供 3 或 4个可靠序列数据的残基。

这种通用方法是由 Mann 及其同事开创的在 EMBL，他使用术语“序列标签”来表示组合结合分子量的序列数据的几个残基信息 [ 曼恩，1994 年 ]。他们定义了一个源自 MS/MS 光谱的序列标签作为前体肽的质量，第一个峰的质量识别的序列阶梯，一段解释序列，以及阶梯的最后高峰。

Mascot的序列查询模式支持两种标准和容错序列标签。它还允许任意组合碎片离子质量值、氨基酸序列数据和要检索的氨基酸组成数据。吉祥物蒸馏器可用于辅助手册序列标签的解释或自动调用它们，（需要搜索工具箱）。

尽管序列查询和未解释的 MS/MS 数据可以组合在一次搜索中，但数据集更有可能仅包含一个或多个序列标签。尽管如此，本教程中关于搜索未解释的 MS/MS 数据同样适用于序列查询搜索，只是数据集通常太小而无法使用目标/诱饵估计 FDR。

Syntax

输入到查询窗口的每一行必须包含一个实验肽质量值，可选地后跟该肽的限定词：

M seq(…) comp(…) ions(…) tag(…) etag(…)

M 是实验质量值， seq(…) 是 AA 序列信息， comp(…) 是 AA 组成信息， ions(…) 包含 MS/MS 碎片质量和（可选）强度值， tag(...) 是一个序列标签， etag(…) 是一个容错序列标签。

一行可能包含零个、一个或多个限定符。如果有多个序列标签限定符，并且一个或多个是容错的，则所有标签都被视为容错。

NB ions(…)、tag(…) 和 etag(…) 限定词按概率评分。即匹配的预选赛越多得分越高，但并非所有预选赛需要匹配。相反，seq(…) 和 comp(…) 被视为过滤器。如果一个 seq(...) 或 comp(...) 限定符匹配失败，则整个查询被丢弃。因此，只包括已知的 seq(...) 或 comp(...) 限定符高度自信。请注意，在 Mascot 搜索中使用 seq(...) 限定符不是相当于执行 Blast 搜索。

序列信息

序列信息应以标准的一个字母给出代码。它前面应该有一个前缀，如表中所述下面，指示它是什么类型的序列。如果没有前缀是指定，默认为 b-。

字首	意义	例子
乙-	N->C 序列	序列（b-DEFG）
Y-	C->N 序列	序列 (y-GFED)
*-	方向未知	序列（*-DEFG）
n-	N端序列	序列（n-ACDE）
C-	C端序列	序列（c-FGHI）

这些示例都将与具有序列的肽匹配 ACDEFGHI。

请注意，*-DEFG 将同时搜索 DEFG 和 GFED。

还要注意 y-GFED 写成 C-term to N-term，而 c-FGHI 写成 N-term 到 C-term

小写和大写字符均可用于氨基酸。未知氨基酸可以用“X”表示。超过一个氨基酸可以通过将它们放在一个位置来指定方括号。一行可能包含几个序列信息限定词。例如，以下查询将匹配一个肽段使用序列 ACDEFGHI：

第1234章

Composition Information

Composition should consist of a number, followed by the corresponding amino acid between square brackets. An asterisk means "one or more". For example

comp(2[H]0[M]3[DE]*[K])

表示含有 2 个组氨酸，不含蛋氨酸的肽， 3 个酸性残基（谷氨酸或天冬氨酸）和至少 1 个赖氨酸。请注意，“X”没有意义，因此不允许在组合查询中使用。

离子信息

来自一个或多个离子系列的质量和（可选）强度值可以在离子定性器中指定肽段的 MS/MS 谱图。每个离子限定符都可以包含一个前缀来指示什么类型的离子系列 m/z 值属于。

字首	意义	例子
乙-	b 系列离子	离子(bm ₁:i ₁,m ₂:i ₂, …,m _n:i _n)
Y-	y系列离子	离子(ym ₁,m ₂, …,m _n)
	未分配	离子(m ₁:i ₁,m ₂:i ₂, …,m _n:i _n)

包括强度值，用冒号与质量值分隔，是可选的。如果不包括强度值，则也必须省略冒号，如 y 系列示例。 Mascot 使用强度信息迭代选择最强烈的峰，以优化评分歧视。

质量值不需要按顺序排列，或表示连续序列离子梯。

一行可能包含多个离子信息限定符，例如例子：

1454.4 离子(b-610,707,804,1086) 离子(y-2909) 离子(2106,2632,2545)

标准序列标签

序列标签限定符由观察到的第一个峰的质量组成识别的序列梯，一段解释的氨基酸序列，以及观察到的质量阶梯的最后高峰。例如

1890.2 标签（1004.1，LSADTG，1548.5）

为了便于阅读，在括号内使用空格（制表符、空格）是可选的。大小写不显着。其他限定符，包括其他序列标签，可能包含在同一个查询中。

序列字符串的语法类似于 seq(...) 限定符，但没有任何前缀。标签中不允许使用“歧义代码”B、X 和 Z，或 etags，因为序列必须与质量值一致。甚至如果 ITOL 非常宽，因此一个位置可以是 Glu 或 Gln，这必须拼写为 [EQ]，而不是输入为 Z。

在标签中，序列语法被扩展以描述替代二聚体、三聚体等。例如：LSA[DT|M|F]G。管道符号划分备选方案，因此在这种情况下定义的可能性是 LSADTG、LSAMG、LSAFG。这提供了一种方便的方式来表示发现的歧义试图解释频谱时。没有管道的方括号中的术语符号默认为字符类的原始含义。那是[IL] 与 [I|L] 相同。请注意，由管道符号分隔的替代项是序列，不是字符类。 [DT|M|F] 与 [DT|TD|M|F] 不同。

标签可以在任一方向运行，但质量值被“粘”在标签的末端。因此，标签（1004，LSADTG，1548）是与 tag(1548, GTDASL, 1004) 相同，但与 tag(1548, LSADTG, 1004) 不同。

观察到的碎片离子质量值可以属于任何系列，如果前体电荷允许，包括双电荷系列和仪器类型。但是，两个碎片离子质量值必须属于同一系列。也就是说，它们都可以是 y 或 y ⁺⁺或 y-17 但一个不能是 y 和另一个 y-17。

如果标签包含不明确的序列字符串并且有变量修改或广泛的肽质量耐受性或者没有酶特异性，这可能会产生非常多的可能性。此类搜索可能需要很长时间才能完成，并且不太可能给出高分。

不能混合 ions(...) 限定符和序列同一查询中的标签。

容错序列标签

尽管存在未预料到的肽段，但序列标签仍可与肽段匹配通过允许质量值“浮动”来修改或点突变。例如，取肽 GVQVETISPGDGR, MH ⁺= 1314.7 和 (b 离子) 序列标签：

1314.7 标签(513.3,T[I|L]SP,911.5)

如果标签的 N 端有意外修改，将质量增加 100，这将影响碎片离子质量值串联。从频谱解释的标签将变为：

1414.7 标签(613.3,T[I|L]SP,1011.5)

另一方面，如果未预料到的修改位于 C 端标签的一侧，片段离子质量值将保持不变，解释的标签将是：

1414.7 标签(513.3,T[I|L]SP,911.5)

通过输入序列标签作为容错序列标签，使用关键字 etag，您可以吉祥物自动搜索这些可能性。在搜索 etag 时，肽分子量限制放松，碎片离子质量值必须符合两种可能性之一。两个值不变或两个值都移动了相同的量肽质量。

1314.7 电子标签 ( 513.3,T[I|L]SP,911.5)

因为 etag 牺牲了标准序列的大部分特异性标签，不允许将其与非常宽的肽质量耐受性结合使用 (> 1% 或 > 10 Da) 或无酶特异性。此外，由于对肽质量的限制被删除，如果一个标签是容错的，然后也处理同一查询的任何其他标签作为容错，即使它们已作为标准标签输入。最后是不能混合 ions(...) 限定符和序列标签。

其他预选赛

peptol( 公差 , unit ) 可用于指定质量公差对于单个查询，覆盖搜索表单的默认值。例如，peptol(10,%) 或 peptol(2,Da)。

如果您从结果页面重新搜索序列查询，您可能会注意到 Mascot 内部使用的另外两个限定符：

from( mass , charge ) 用于追踪原始肽的质量和电荷状态，在它被转化为中性之后， MR _值。例如，如果肽电荷状态被指定为 1+，查询 1234.5 将从 (1234.5,1+) 变为 1233.492

title( 编码的标题文本 ) 可用于关联文本字符串带有单独的查询。如果文本包含非字母数字字符，则这些必须通过转换为 %nn 对 Url 进行编码，其中 nn 是十六进制 ASCII 码为角色。例如， Sample(1) 变为 Sample%281%29 。

例子

加载一个序列查询表单，将以下搜索粘贴到查询窗口中，然后提交搜索。

TAXONOMY=. . . . . . . . . . lobe-finned fish and tetrapod clade
REPTYPE=Peptide
TOL=0.03
TOLU=%
ITOL=0.5
ITOLU=Da
CHARGE=2+
INSTRUMENT=ESI-TRAP
877.4 tag(376.2, [IL][QK][IL], 730.2)
687.3 etag(782.3, NG[IL], 1066.1)

这两个序列标签取自曼和威尔姆。你应该发现两者都与溶菌酶匹配：

1.      Q7LZI3                   质量： 14220 得分： 76 匹配： 2 (2) 序列： 2 (2)    
        溶菌酶 C OS=Tragopan satyra GN=LYZ PE=1 SV=1  
        选中以将此命中包含在容错搜索或存档报告中  
         
        Query Observed Mr(expt) Mr(calc) % Miss Score Expect Rank Unique Peptide   
           2    687.3000 1372.5854 1267.6019 8.2821 0 42 0.31 1 U R.GYSLGNWVCAAK.F 
           1    877.4000 1752.7854 1752.8278 -0.0024 0 35 0.0021 1 U R.NTDGSTDYGILQINSR.W

容错标签通过将肽质量调整 105 Da 找到了匹配，对应对半胱氨酸残基进行 s-吡啶基乙基化。

posted @ 2022-05-21 17:39 十年后一起潇阅读(961) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Mascot概率评分

· 肽质量的图谱搜索

· 云上MongoDB常见索引问题及最优索引规则大全

· 单细胞测序最好的教程：（六）细胞类型注释｜或许是全网最详细的注释教程

· Python-生物信息学秘籍-全-

公告

昵称：十年后一起潇
园龄： 3年10个月
粉丝： 4
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

十年后一起潇