肽的序列查询
介绍
序列查询,其中一个或多个肽分子 质量与序列、组成和碎片离子相结合 数据,可能是最强大的搜索。 通常 序列信息的来源是解释 MS/MS 谱图。 虽然很难确定一个完整的 和来自 MS/MS 光谱的明确肽序列,它是 通常可以找到一系列提供 3 或 4个可靠序列数据的残基。
这种通用方法是由 Mann 及其同事开创的 在 EMBL,他使用术语“序列标签”来表示组合 结合分子量的序列数据的几个残基 信息 [ 曼恩,1994 年 ]。 他们定义了一个源自 MS/MS 光谱的序列标签 作为前体肽的质量,第一个峰的质量 识别的序列阶梯,一段解释序列,以及 阶梯的最后高峰。
Mascot的序列查询模式支持两种标准 和容错序列标签。 它还允许任意组合 碎片离子质量值、氨基酸序列数据和 要检索的氨基酸组成数据。 吉祥物蒸馏器可用于辅助手册 序列标签的解释或自动调用它们,(需要搜索工具箱)。
尽管序列查询和未解释的 MS/MS 数据可以组合在一次搜索中,但数据集更有可能仅包含一个或多个序列标签。 尽管如此,本 教程中关于搜索未解释的 MS/MS 数据 同样适用于序列查询搜索,只是数据集通常太小而无法使用目标/诱饵估计 FDR。
Syntax
输入到查询窗口的每一行必须包含一个 实验肽质量值,可选地后跟 该肽的限定词:
M seq(…) comp(…) ions(…) tag(…) etag(…)
M 是实验质量值, seq(…) 是 AA 序列信息, comp(…) 是 AA 组成信息, ions(…) 包含 MS/MS 碎片质量和(可选)强度值, tag(...) 是一个序列标签, etag(…) 是一个容错序列标签。
一行可能包含零个、一个或多个限定符。 如果有多个序列标签 限定符,并且一个或多个是容错的,则所有标签都被视为 容错。
NB ions(…)、tag(…) 和 etag(…) 限定词按概率评分。 即匹配的预选赛越多得分越高,但并非所有预选赛 需要匹配。 相反,seq(…) 和 comp(…) 被视为过滤器。 如果一个 seq(...) 或 comp(...) 限定符匹配失败,则整个查询被丢弃。 因此,只包括已知的 seq(...) 或 comp(...) 限定符 高度自信。 请注意,在 Mascot 搜索中使用 seq(...) 限定符 不是 相当于执行 Blast 搜索。
序列信息
序列信息应以标准的一个字母给出 代码。 它前面应该有一个前缀,如表中所述 下面,指示它是什么类型的序列。 如果没有前缀是 指定,默认为 b-。
字首 | 意义 | 例子 |
---|---|---|
乙- | N->C 序列 | 序列(b-DEFG) |
Y- | C->N 序列 | 序列 (y-GFED) |
*- | 方向未知 | 序列(*-DEFG) |
n- | N端序列 | 序列(n-ACDE) |
C- | C端序列 | 序列(c-FGHI) |
这些示例都将与具有序列的肽匹配 ACDEFGHI。
请注意,*-DEFG 将同时搜索 DEFG 和 GFED。
还要注意 y-GFED 写成 C-term to N-term,而 c-FGHI 写成 N-term 到 C-term
小写和大写字符均可用于氨基酸。 未知氨基酸可以用“X”表示。 超过一个 氨基酸可以通过将它们放在一个位置来指定 方括号。 一行可能包含几个序列信息 限定词。 例如,以下查询将匹配一个肽段 使用序列 ACDEFGHI:
第1234章
Composition Information
Composition should consist of a number, followed by the corresponding amino acid between square brackets. An asterisk means "one or more". For example
comp(2[H]0[M]3[DE]*[K])
表示含有 2 个组氨酸,不含蛋氨酸的肽, 3 个酸性残基(谷氨酸或天冬氨酸)和至少 1 个赖氨酸。 请注意,“X”没有意义,因此不允许在组合查询中使用。
离子信息
来自一个或多个离子系列的质量和(可选)强度值 可以在离子定性器中指定肽段的 MS/MS 谱图。 每个离子限定符都可以包含一个前缀来指示什么类型的离子系列 m/z 值属于。
字首 | 意义 | 例子 |
---|---|---|
乙- | b 系列离子 | 离子(bm 1 :i 1 ,m 2 :i 2 , …,m n :i n ) |
Y- | y系列离子 | 离子(ym 1 ,m 2 , …,m n ) |
未分配 | 离子(m 1 :i 1 ,m 2 :i 2 , …,m n :i n ) |
包括强度值,用冒号与质量值分隔,是可选的。 如果不包括强度值,则也必须省略冒号,如 y 系列示例。 Mascot 使用强度信息迭代选择 最强烈的峰,以优化评分歧视。
质量值不需要按顺序排列,或表示连续 序列离子梯。
一行可能包含多个离子信息限定符,例如 例子:
1454.4 离子(b-610,707,804,1086) 离子(y-2909) 离子(2106,2632,2545)
标准序列标签
序列标签限定符由观察到的第一个峰的质量组成 识别的序列梯,一段解释的氨基酸序列,以及观察到的质量 阶梯的最后高峰。 例如
1890.2 标签(1004.1,LSADTG,1548.5)
为了便于阅读,在括号内使用空格(制表符、空格)是可选的。 大小写不显着。 其他限定符,包括其他序列 标签,可能包含在同一个查询中。
序列字符串的语法类似于 seq(...) 限定符,但没有任何前缀。 标签中不允许使用“歧义代码”B、X 和 Z,或 etags,因为序列必须与质量值一致。 甚至 如果 ITOL 非常宽,因此一个位置可以是 Glu 或 Gln,这必须 拼写为 [EQ],而不是输入为 Z。
在标签中,序列语法被扩展以描述替代二聚体、三聚体等。 例如:LSA[DT|M|F]G。 管道符号划分备选方案, 因此在这种情况下定义的可能性是 LSADTG、LSAMG、LSAFG。 这提供了一种方便的方式来表示发现的歧义 试图解释频谱时。 没有管道的方括号中的术语 符号默认为字符类的原始含义。 那是[IL] 与 [I|L] 相同。 请注意,由管道符号分隔的替代项是序列, 不是字符类。 [DT|M|F] 与 [DT|TD|M|F] 不同。
标签可以在任一方向运行,但质量值 被“粘”在标签的末端。 因此,标签(1004,LSADTG,1548)是 与 tag(1548, GTDASL, 1004) 相同,但与 tag(1548, LSADTG, 1004) 不同。
观察到的碎片离子质量值可以属于任何系列, 如果前体电荷允许,包括双电荷系列 和仪器类型。 但是,两个碎片离子质量值必须属于 同一系列。 也就是说,它们都可以是 y 或 y ++ 或 y-17 但一个 不能是 y 和另一个 y-17。
如果标签包含不明确的序列字符串并且有变量修改 或广泛的肽质量耐受性 或者没有酶特异性,这可能会产生 非常 多的可能性。 此类搜索可能需要很长时间才能完成,并且不太可能给出高分。
不能混合 ions(...) 限定符和序列 同一查询中的标签。
容错序列标签
尽管存在未预料到的肽段,但序列标签仍可与肽段匹配 通过允许质量值“浮动”来修改或点突变。 例如,取肽 GVQVETISPGDGR, MH + = 1314.7 和 (b 离子) 序列标签:
1314.7 标签(513.3,T[I|L]SP,911.5)
如果标签的 N 端有意外修改, 将质量增加 100,这将影响碎片离子质量 值串联。 从频谱解释的标签将变为:
1414.7 标签(613.3,T[I|L]SP,1011.5)
另一方面,如果未预料到的修改位于 C 端 标签的一侧,片段 离子质量值将保持不变,解释的标签将是:
1414.7 标签(513.3,T[I|L]SP,911.5)
通过输入序列标签作为容错序列标签,使用关键字 etag,您可以 吉祥物自动搜索这些可能性。 在搜索 etag 时, 肽分子量限制放松,碎片离子质量 值必须符合两种可能性之一。 两个值 不变或两个值都移动了相同的量 肽质量。
1314.7 电子标签 ( 513.3,T[I|L]SP,911.5)
因为 etag 牺牲了标准序列的大部分特异性 标签,不允许将其与非常宽的肽质量耐受性结合使用 (> 1% 或 > 10 Da) 或无酶 特异性。 此外,由于对肽质量的限制被删除,如果 一个标签是容错的,然后也处理同一查询的任何其他标签 作为容错,即使它们已作为标准标签输入。 最后是 不能混合 ions(...) 限定符和序列标签。
其他预选赛
peptol( 公差 , unit ) 可用于指定质量公差 对于单个查询,覆盖搜索表单的默认值。 例如,peptol(10,%) 或 peptol(2,Da)。
如果您从结果页面重新搜索序列查询,您可能会注意到 Mascot 内部使用的另外两个限定符:
from( mass , charge ) 用于追踪原始 肽的质量和电荷状态,在它被转化为中性之后, MR 值 。 例如,如果 肽电荷 状态被指定为 1+, 查询 1234.5 将从 (1234.5,1+) 变为 1233.492
title( 编码的标题文本 ) 可用于关联文本字符串 带有单独的查询。 如果文本包含非字母数字字符,则这些 必须通过转换为 %nn 对 Url 进行编码,其中 nn 是十六进制 ASCII 码 为角色。 例如, Sample(1) 变为 Sample%281%29 。
例子
加载一个序列查询表单,将以下搜索粘贴到查询窗口中,然后提交 搜索。
TAXONOMY=. . . . . . . . . . lobe-finned fish and tetrapod clade REPTYPE=Peptide TOL=0.03 TOLU=% ITOL=0.5 ITOLU=Da CHARGE=2+ INSTRUMENT=ESI-TRAP 877.4 tag(376.2, [IL][QK][IL], 730.2) 687.3 etag(782.3, NG[IL], 1066.1)
这两个序列标签取自 曼和威尔姆 。 你应该 发现两者都与溶菌酶匹配:
1. Q7LZI3 质量: 14220 得分: 76 匹配: 2 (2) 序列: 2 (2) 溶菌酶 C OS=Tragopan satyra GN=LYZ PE=1 SV=1 选中以将此命中包含在容错搜索或存档报告中 Query Observed Mr(expt) Mr(calc) % Miss Score Expect Rank Unique Peptide 2 687.3000 1372.5854 1267.6019 8.2821 0 42 0.31 1 U R.GYSLGNWVCAAK.F 1 877.4000 1752.7854 1752.8278 -0.0024 0 35 0.0021 1 U R.NTDGSTDYGILQINSR.W
容错标签通过将肽质量调整 105 Da 找到了匹配,对应 对半胱氨酸残基进行 s-吡啶基乙基化。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)