肽质量的图谱搜索
如果您没有时间阅读这个简短的教程,以下是最重要的注意事项:
- 您无法搜索原始数据; 它必须转换为峰值列表。
- 搜索参数很关键,应该通过运行标准来确定,例如 BSA 摘要。
- 如果您不确定要搜索哪个数据库,请从 Swiss-Prot 开始。
- 如果您使用分类过滤器或搜索单个生物数据库,请在搜索中包含污染物数据库。
- 永远不要指定两个以上的变量修改。
- 总是选择一种特定的酶(通常是胰蛋白酶)。
- 仅当预期值低于 0.05(5% 的错误概率)时,蛋白质命中才有意义(可靠)。
教程
肽质量指纹 (PMF) 搜索的第一个要求是 峰列表 ; 您不能上传原始数据文件。 原始数据通过称为峰值拾取或峰值检测的过程转换为峰值列表。 通常,仪器数据系统会处理此问题,您可以直接从数据系统提交 Mascot 搜索,或将峰列表保存到磁盘文件以使用 Web 浏览器搜索表单提交。 如果没有,或者如果您有原始数据文件并且无法访问数据系统,则需要找到一个实用程序将其转换为峰值列表。 峰列表是文本文件,有各种不同的格式。 您还可以将值列表复制并粘贴到搜索表单的 查询 区域中,甚至可以输入它们。每个 m/z 值位于单独的行中。 如果您还有峰的强度值,则它位于 m/z 值之后,由空格或制表符分隔。
非常短的肽的质量值对分数的贡献很小。 提供最大特异性的是不太可能出现在多种蛋白质中的长肽,因此目标是在 1000 到 3500 Da 范围内获得尽可能多的肽质量。 高质量准确度很好,但序列覆盖率同样重要。 从 20 个质量值适中的精度比 5 个质量值非常高的精度,您将获得更好的分数。
仅靠峰值列表是不够的。 还有一些 搜索参数 必须适当设置 按照 此链接 在新的浏览器选项卡中打开搜索表单。 搜索表单上每个控件的标签也是帮助主题的链接。 请注意,您可以通过访问 Mascot Server 页面底部的链接为 Web 浏览器搜索表单设置自己的默认值。
无论您有自己的 Mascot 服务器、内部服务器,还是连接到免费的公共 Mascot 服务器,该表单看起来都差不多。 如果您使用免费的公共 Mascot 服务器,则有一些限制,其中之一是您必须提供姓名和电子邮件地址,以便在连接断开时我们可以通过电子邮件发送指向您的搜索结果的链接。 是否输入搜索标题是您的选择。 它显示在结果报告的顶部,并且可能是日后识别搜索的有用方法。
如果可能,运行一个 标准样本 并使用它来设置所有搜索参数。 对于标准样本,我们的意思是像 BSA 摘要这样的东西,它会给出一个强有力的匹配,并且你知道答案应该是什么。 尝试在未知对象上设置搜索参数要困难得多,并且可能导致误报。
您必须做出的第一个选择是 数据库 要搜索 免费的公共网站只有几个比较流行的公共数据库,但内部服务器可能有一百个或更多。 一些数据库包含来自单一生物的序列。 其他包含来自多种生物的条目,但通常包括每个条目的分类,以便在使用 分类 过滤器进行搜索期间可以选择特定生物的条目。
如果您的目标生物具有良好的特征,例如人类或小鼠或酵母或拟南芥, Swiss-Prot 是推荐的选择。 这些条目都是高质量的,并且注释很好。 因为 Swiss-Prot 是非冗余的,所以它相对较小,这使得更容易获得具有统计意义的匹配。 如果您认为您知道样本中有什么,您可以通过分类过滤器将搜索限制在生物体或家族,但请记住,您永远不能排除污染物。 在搜索单个生物的条目时,请始终包含 常见污染物 。 否则,您可能无法匹配,或者您最终可能会报告您的样本是人血清白蛋白,而实际上它是 BSA。 在 Web 浏览器表单中,要选择两个数据库,首先单击目标数据库,然后按住控制键并单击污染物数据库。 如果搜索包括分类过滤器,这不是问题,因为没有为污染物数据库配置分类,因此将始终搜索所有条目。
如果您对细菌或植物感兴趣,您可能会发现它在 Swiss-Prot 中的代表性很差,最好尝试一个综合蛋白质数据库,该数据库旨在包括所有已知的蛋白质序列。 最著名的两个是 NCBIprot 和 UniRef100 。 这些是非常大的数据库,您总是希望选择有限的分类法。 但是,千万不要在不查看条目数和了解分类的情况下选择狭窄的分类法。 例如,在当前的 Swiss-Prot 中,有 26,139 个啮齿动物条目,其中除了 1,602 个之外,其余都是针对小鼠和大鼠的。 因此,即使您的目标生物是仓鼠,选择“其他啮齿动物”也不是一个好主意。 最好搜索啮齿类动物,希望能与小鼠和大鼠的同源蛋白相匹配。
您必须始终为 PMF 选择一种酶。 允许 遗漏的乳沟 应根据经验设置
修改 以两种方式处理。 首先,有 固定 或定量的修改。 最常见的例子是半胱氨酸的烷基化。 由于所有半胱氨酸都被修饰,这实际上只是半胱氨酸质量的变化。 它在搜索速度或特异性方面没有任何损失。 最广泛使用的烷基化剂是碘乙酰胺(选择修饰氨基甲酰甲基)、碘乙酸(羧甲基)和 MMTS(甲硫基)。
相反,大多数翻译后修饰并不适用于残基的所有实例。 例如,磷酸化可能只影响含有许多丝氨酸和苏氨酸的蛋白质中的一个丝氨酸。 这些 可变 的或非定量的修改是昂贵的,因为它们增加了搜索空间。 这是因为软件必须置换出适合肽分子量的修饰和未修饰残基的所有可能排列。 随着越来越多的修改被考虑,组合和排列的数量呈几何级数增加,我们得到了所谓的组合爆炸。
PMF 无法识别翻译后修饰; 这需要 MS/MS,因此最好的建议是使用最少的变量修改,或者根本不使用。 在大多数情况下,您需要考虑的唯一可变修饰是蛋氨酸的氧化。 尝试从您的标准中搜索数据,无论是否进行此修改,以查看哪个得分最高。
蛋白质质量 用作滑动窗口。 也就是说,对于每个数据库条目,Mascot 会在小于或等于指定蛋白质质量的连续序列中查找得分最高的肽质量匹配集。 通常,这不会增加分数,一般建议是将此字段留空。
估计 质量精度 不一定是猜谜游戏。 Mascot Protein View 报告包括质量误差图。 只需运行一个标准并查看正确匹配的错误图。 忽略异常值,即机会质量匹配,增加安全边际,这是您的错误估计。 您还可以使用这些图表来确定 Da 或 ppm 是否是容差单位的最佳选择。
在大多数情况下,PMF 数据来自 MALDI 实验, 质量值为 MH + 。 您的峰值列表将仅包含 M r 如果峰值拾取软件已“去除”测量的 m/z 值, 可能是因为数据包含电荷状态的混合。
大多数现代仪器产生 单一同位素 质量值。 您将只有 平均 如果整个同位素分布已集中到单个峰中, (如果您将此设置错误,质量误差将非常大并显示出强烈的趋势,因为肽和蛋白质的平均质量和单一同位素质量之间的差异约为 0.06%。)
如果 诱饵 ,Mascot 会针对每个蛋白质序列已随机化的数据库重复搜索。 如果您的分数接近显着性阈值并且想知道匹配是否可靠,则可以帮助查看随机诱饵数据库中的最佳分数。 如果这与目标相似或更高,这可能是一个有用的警告。
报告 确定搜索结果报告中显示的最大匹配数。 始终选择 AUTO 以仅显示具有显着分数的蛋白质命中(再加一个,以防没有显着命中)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)