Percolator

渗滤器

Percolator 是一种使用半监督机器的算法学习提高正确和不正确频谱之间的区分标识。比赛来自搜索诱饵数据库提供分类器的负例，以及来自目标数据库的高分匹配提供正面的例子。 Percolator 训练机器学习一种称为支持向量机 (SVM) 的算法来区分通过将权重分配给多个特征。特征示例包括吉祥物得分、前体质量误差、片段质量误差，变量数修改等。具有最佳权重的特征向量然后用于对来自所有查询的匹配项重新排序，通常会提高敏感性。

Percolator 由 Lukas Käll、Jesse D Canterbury、Jason Weston 开发，华盛顿大学的 William Stafford Noble 和 Michael J MacCoss，基因组科学系。该软件是在阿帕奇 2.0 许可证并经许可包含在吉祥物中。

我们还要感谢 Markus Brosch 及其同事在英国欣克斯顿的 Sanger 中心，首先将 Percolator 应用于 Mascot 结果并开发了一个名为吉祥物渗滤器。

有一些相关的出版物：

Kall, L. 等人，从鸟枪法蛋白质组学数据集中进行肽识别的半监督学习，自然方法 4 923-925 (2007)
Kall, L. 等人，后验错误概率和错误发现率：同一枚硬币的两个面，蛋白质组研究杂志 7 40-44 (2008)
Kall, L. 等人，使用诱饵数据库为通过串联质谱法鉴定的肽分配意义，蛋白质组研究杂志 7 29-34 (2008)
Kall, L. 等人，与通过串联质谱法鉴定的肽相关的后验误差概率的非参数估计，生物信息学 24 I42-I48 (2008)
Brosch, M. 等人，使用 Mascot Percolator 进行准确和敏感的肽鉴定，蛋白质组研究杂志 8 3176-3181 (2009)
Spivak, M. 等人，Percolator 算法的改进，用于从 Shotgun 蛋白质组学数据集中进行肽识别，蛋白质组研究杂志 8 3737-3745 (2009)

Percolator p 值 、 q 值 和后验错误概率 ( PEP 为每个匹配 q值可以认为是错误发现率。如果我们接受所有 q 值为 0.01 或更小的匹配，错误发现率为 1%。 PEP 是单个匹配是偶然事件的概率。

使用 Percolator 对 Mascot 搜索中的匹配项重新排序的要求是：

MS/MS 搜索
搜索必须包括自动诱饵数据库搜索的结果
搜索必须包含至少 750 个查询
必须搜索至少 100 个数据库条目。
搜索不能是容错搜索。

如果满足这些要求，结果报告将包括一个复选框 Show Percolator score 。选中此项并重新加载报告时，原吉祥物分数将被替换如下：

分数：-10log(PEP)
期望值：PEP
p<0.05 的身份阈值分数：13

渗滤器通常会给灵敏度带来有价值的改进。有时它可能会失败。例如，如果搜索结果中好的匹配项很少，则可能没有足够的正数可以使用的示例。

特征

Percolator 可以使用的完整功能集在代码中定义。你可以使用 Mascot 配置文件的 Options 部分中的设置选择这些功能的子集，吉祥物.dat。出厂时的默认设置是：

PercolatorFeatures dM、mScore、MIT、MHT、peptideLength、z1、z2、z4、z7、isoSysDM、isoSysDMppm、isoSysDMz、12C、mc0、mc1、mc2、varmods、varmodsCount、totInt、intMatchedTot、relIntMatchedTot、RMS、RMSppm、meanAbsFragDa、meanAbsFragPPM ，原始分数

Percolator 可用的功能列表

功能名称	描述
保留时间	保留时间（以秒为单位）（如果有）
分米	以 Da 计算减去观察到的肽质量
分数	吉祥物得分（常亮）
lgDScore	吉祥物得分减去下一个最佳非等压肽命中的吉祥物得分
计算器	计算先生
收费	收费
dMppm	计算减去观察到的肽质量（以 ppm 为单位）
绝对DM	以 Da 计算的减去观察到的肽质量的绝对值
绝对DMppm	以 ppm 为单位计算减去观察到的肽质量的绝对值
异构体	在消除高达 2 Da 的可能同位素误差后，计算的减去观察到的肽质量的绝对值，以 Da 为单位
异DMppm	在消除高达 2 Da 的可能同位素误差后，计算的减去观察到的肽质量的绝对值，以 ppm 为单位
isoDmz	计算减去观察到的肽 m/z 的绝对值
麦克	错过的切割次数（如果没有酶，则始终为 0）
变种器	已修改站点数除以可修改站点数（如果可修改站点数为 0，则设置为 0）
变量计数	存在的不同 varmod 的数量
变量计数	肽段中使用的变量 mods 的数量。也就是说，如果有 10 个 Met，其中 5 个被氧化，则计为 1。具有 Met-OX、磷酸化、脱酰胺和乙酰化的肽将计为 5。
可修改	可修改站点总数
修改的	修饰残基和末端的总数
总整数	记录总离子强度。每个 100 Da bin 中的 20 个最强烈的峰用于所有特征，totInt 报告这个值
intMatchedTot	记录总匹配离子强度
relIntMatchedTot	总匹配离子强度除以总离子强度的百分比（不涉及对数）
fragDeltaMed	Da 中所有匹配片段错误的中值
问DeltaIqr	Da中所有匹配片段错误的四分位距值
fragDeltaMedPPM	以 ppm 为单位的所有匹配片段错误的中值
fragDeltaIqrPPM	所有匹配片段错误的四分位数范围值（以 ppm 为单位）
fragDeltaPolyFit	二阶多项式拟合 m/z 与 delta。结果是 Rsquared 乘以点数除以 100
最长	最长序列匹配离子，针对每个离子系列（仅主干）单独报告，与 fracIonsMatched 一样
分数匹配	计算的离子匹配分数，针对每个离子系列单独报告，NL 集中在一起（例如 fracIonsMatchedB1、fracIonsMatchedB1deriv、fracIonsMatchedB2、fracIonsMatchedB2deriv）
匹配强度	匹配的离子强度，针对每个离子系列单独报告，与 fracIonsMatched 一样
匹配	尝试进行 ms-ms 匹配的肽段匹配数
和	吉祥物身份门槛
MHT	吉祥物同源阈值
肽长度	肽长度
z1	1 如果电荷 = 1
z2	1 如果电荷 = 2 或 3
z4	1 如果电荷 = 4、5 或 6
z7	1 如果费用 = 7 或更多
12C	1 如果肽质量为 12C 值（无同位素错误）
mc0	1 如果错过的切割 = 0 或如果没有酶
mc1	1 如果错过的乳沟 = 0 或 1
mc2	1 如果错过乳沟 = 2 或更多
有效值	匹配片段的 RMS m/z 误差
有效值ppm	匹配片段的 RMS ppm 误差
平均AbsFragDa	匹配片段的平均绝对 m/z 误差
平均AbsFragPPM	匹配片段的平均绝对 PPM 误差
原始分数	使用与主系列序列离子匹配的简单二项式得分和 p = 2ITOLn/100 其中 n 是在每个 100 Da bin 中选择的峰数
肽	匹配的肽串插入数字以表示修改，例如 X.DAKAAM1AGRLM1IR.X
蛋白质	包含此肽的蛋白质序列的制表符分隔列表。必须是列表中的最后一个特征

一个特征的处理方式与其他特征不同：保留时间。如果保留时间包含在峰列表中，那么它在 Mascot 结果文件中可用，它可以通过将实验 RT 值与通过计算的值进行比较来用作特征渗滤器。要启用此功能：

峰列表必须使用 MGF 提供保留时间信息 RTINSECONDS 参数。拥有是不够的嵌入在扫描标题字符串中的信息
在 mascot.dat 的 Options 部分中，将 PercolatorUseRT 设置为 1 以默认打开此功能。请注意，Percolator 中的保留时间计算非常耗时，并且对于大多数数据集而言，灵敏度的提高只是微不足道的。我们建议不要将其作为全局默认值打开。最好通过将参数 percolate_rt=1 添加到报告 URL 来在特定示例上进行尝试。

mascot.dat 中的两个选项控制是否对排名 1 以外的目标匹配进行渗透：

PercolatorTargetRankScoreThreshold：如果分数低于此值（默认为 20），则不渗透排名低于 1 的目标匹配
PercolatorTargetRankRelativeThreshold：如果分数差除以排名 1 的分数大于此值（默认 0.2），则不渗透排名 1 以下的目标匹配

数据流

在完成合格搜索时，nph-mascot.exe 创建一个 Percolator 输入结果目录中的文件 (*.pip)
加载 Percolated 结果的报告时，Percolator 可执行文件由 nph-cache_families.pl 创建结果目录中的一对输出文件（*.target.pop, *.decoy.pop）。如果渗透开启默认情况下，不建议这样做，这将在第一次加载报告时发生。否则，它当 Percolator 复选框被选中并使用 Format As 。
最后，nph-cache_families.pl 使用 *.pop 文件创建允许报告的新缓存文件使用渗透分数代替原始吉祥物分数来显示。

posted @ 2022-05-23 12:13 十年后一起潇阅读(291) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 机器学习中的蛋白质组学

· Mascot概率评分

· Lucidrains-系列项目源码解析-三十九-

· Transformer 自然语言处理（三）

· FastAI 之书（面向程序员的 FastAI）（四）

公告

昵称：十年后一起潇
园龄： 3年10个月
粉丝： 4
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

十年后一起潇

Percolator

渗滤器

特征

数据流

公告

搜索

常用链接

随笔档案

阅读排行榜