Percolator

渗滤器

Percolator 是一种使用半监督机器的算法 学习提高正确和不正确频谱之间的区分 标识。 比赛来自 搜索诱饵数据库提供 分类器的负例,以及 来自目标数据库的高分匹配提供 正面的例子。 Percolator 训练机器学习 一种称为支持向量机 (SVM) 的算法来区分 通过将权重分配给多个 特征。 特征示例包括吉祥物得分、前体质量误差、 片段质量误差,变量数 修改等。具有最佳权重的特征向量 然后用于对来自所有查询的匹配项重新排序,通常会提高敏感性。

Percolator 由 Lukas Käll、Jesse D Canterbury、Jason Weston 开发, 华盛顿大学的 William Stafford Noble 和 Michael J MacCoss, 基因组科学系。 该软件是在 阿帕奇 2.0 许可证 并经许可包含在吉祥物中。

我们还要感谢 Markus Brosch 及其同事在 英国欣克斯顿的 Sanger 中心,首先将 Percolator 应用于 Mascot 结果 并开发了一个名为 吉祥物渗滤器

有一些相关的出版物:

Percolator p 值 q 值 和后验错误概率 ( PEP 为每个匹配 q值可以认为是错误发现率。 如果我们接受所有 q 值为 0.01 或更小的匹配, 错误发现率为 1%。 PEP 是单个匹配是偶然事件的概率。

使用 Percolator 对 Mascot 搜索中的匹配项重新排序的要求是:

  1. MS/MS 搜索
  2. 搜索必须包括自动诱饵数据库搜索的结果
  3. 搜索必须包含至少 750 个查询
  4. 必须搜索至少 100 个数据库条目。
  5. 搜索不能是容错搜索。

如果满足这些要求, 结果报告将包括一个复选框 Show Percolator score 。 选中此项并重新加载报告时, 原吉祥物分数将被替换如下:

  • 分数:-10log(PEP)
  • 期望值:PEP
  • p<0.05 的身份阈值分数:13

渗滤器通常会给灵敏度带来有价值的改进。 有时它可能会失败。 例如,如果搜索结果中好的匹配项很少,则可能没有足够的正数 可以使用的示例。

特征

Percolator 可以使用的完整功能集在代码中定义。 你可以 使用 Mascot 配置文件的 Options 部分中的设置选择这些功能的子集, 吉祥物.dat。 出厂时的默认设置是:

PercolatorFeatures dM、mScore、MIT、MHT、peptideLength、z1、z2、z4、z7、isoSysDM、isoSysDMppm、isoSysDMz、12C、mc0、mc1、mc2、varmods、varmodsCount、totInt、intMatchedTot、relIntMatchedTot、RMS、RMSppm、meanAbsFragDa、meanAbsFragPPM , 原始分数

Percolator 可用的功能列表
功能名称 描述
保留时间 保留时间(以秒为单位)(如果有)
分米 以 Da 计算减去观察到的肽质量
分数 吉祥物得分(常亮)
lgDScore 吉祥物得分减去下一个最佳非等压肽命中的吉祥物得分
计算器 计算先生
收费 收费
dMppm 计算减去观察到的肽质量(以 ppm 为单位)
绝对DM 以 Da 计算的减去观察到的肽质量的绝对值
绝对DMppm 以 ppm 为单位计算减去观察到的肽质量的绝对值
异构体 在消除高达 2 Da 的可能同位素误差后,计算的减去观察到的肽质量的绝对值,以 Da 为单位
异DMppm 在消除高达 2 Da 的可能同位素误差后,计算的减去观察到的肽质量的绝对值,以 ppm 为单位
isoDmz 计算减去观察到的肽 m/z 的绝对值
麦克 错过的切割次数(如果没有酶,则始终为 0)
变种器 已修改站点数除以可修改站点数(如果可修改站点数为 0,则设置为 0)
变量计数 存在的不同 varmod 的数量
变量计数 肽段中使用的变量 mods 的数量。 也就是说,如果有 10 个 Met,其中 5 个被氧化,则计为 1。具有 Met-OX、磷酸化、脱酰胺和乙酰化的肽将计为 5。
可修改 可修改站点总数
修改的 修饰残基和末端的总数
总整数 记录总离子强度。 每个 100 Da bin 中的 20 个最强烈的峰用于所有特征,totInt 报告这个值
intMatchedTot 记录总匹配离子强度
relIntMatchedTot 总匹配离子强度除以总离子强度的百分比(不涉及对数)
fragDeltaMed Da 中所有匹配片段错误的中值
问DeltaIqr Da中所有匹配片段错误的四分位距值
fragDeltaMedPPM 以 ppm 为单位的所有匹配片段错误的中值
fragDeltaIqrPPM 所有匹配片段错误的四分位数范围值(以 ppm 为单位)
fragDeltaPolyFit 二阶多项式拟合 m/z 与 delta。 结果是 Rsquared 乘以点数除以 100
最长 最长序列匹配离子,针对每个离子系列(仅主干)单独报告,与 fracIonsMatched 一样
分数匹配 计算的离子匹配分数,针对每个离子系列单独报告,NL 集中在一起(例如 fracIonsMatchedB1、fracIonsMatchedB1deriv、fracIonsMatchedB2、fracIonsMatchedB2deriv)
匹配强度 匹配的离子强度,针对每个离子系列单独报告,与 fracIonsMatched 一样
匹配 尝试进行 ms-ms 匹配的肽段匹配数
吉祥物身份门槛
MHT 吉祥物同源阈值
肽长度 肽长度
z1 1 如果电荷 = 1
z2 1 如果电荷 = 2 或 3
z4 1 如果电荷 = 4、5 或 6
z7 1 如果费用 = 7 或更多
12C 1 如果肽质量为 12C 值(无同位素错误)
mc0 1 如果错过的切割 = 0 或如果没有酶
mc1 1 如果错过的乳沟 = 0 或 1
mc2 1 如果错过乳沟 = 2 或更多
有效值 匹配片段的 RMS m/z 误差
有效值ppm 匹配片段的 RMS ppm 误差
平均AbsFragDa 匹配片段的平均绝对 m/z 误差
平均AbsFragPPM 匹配片段的平均绝对 PPM 误差
原始分数 使用与主系列序列离子匹配的简单二项式得分和 p = 2*ITOL*n/100 其中 n 是在每个 100 Da bin 中选择的峰数
匹配的肽串插入数字以表示修改,例如 X.DAKAAM1AGRLM1IR.X
蛋白质 包含此肽的蛋白质序列的制表符分隔列表。 必须是列表中的最后一个特征

一个特征的处理方式与其他特征不同:保留时间。 如果保留时间包含在峰列表中,那么它 在 Mascot 结果文件中可用,它可以通过将实验 RT 值与通过计算的值进行比较来用作特征 渗滤器。 要启用此功能:

  • 峰列表必须使用 MGF 提供保留时间信息 RTINSECONDS 参数。 拥有是不够的 嵌入在扫描标题字符串中的信息
  • 在 mascot.dat 的 Options 部分中,将 PercolatorUseRT 设置为 1 以默认打开此功能。 请注意,Percolator 中的保留时间计算非常耗时,并且对于大多数数据集而言,灵敏度的提高只是微不足道的。 我们建议不要将其作为全局默认值打开。 最好通过将参数 percolate_rt=1 添加到报告 URL 来在特定示例上进行尝试。

mascot.dat 中的两个选项控制是否对排名 1 以外的目标匹配进行渗透:

  • PercolatorTargetRankScoreThreshold:如果分数低于此值(默认为 20),则不渗透排名低于 1 的目标匹配
  • PercolatorTargetRankRelativeThreshold:如果分数差除以排名 1 的分数大于此值(默认 0.2),则不渗透排名 1 以下的目标匹配

数据流

  1. 在完成合格搜索时,nph-mascot.exe 创建一个 Percolator 输入 结果目录中的文件 (*.pip)
  2. 加载 Percolated 结果的报告时,Percolator 可执行文件由 nph-cache_families.pl 创建 结果目录中的一对输出文件(*.target.pop, *.decoy.pop)。 如果渗透开启 默认情况下,不建议这样做,这将在第一次加载报告时发生。 否则,它 当 Percolator 复选框被选中并使用 Format As
  3. 最后,nph-cache_families.pl 使用 *.pop 文件创建允许报告的新缓存文件 使用渗透分数代替原始吉祥物分数来显示。
posted @   十年后一起潇  阅读(291)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示