机器学习中的蛋白质组学

  • 鸟枪法蛋白质组学数据集肽识别的半监督学习

鸟枪法蛋白质组学使用液相色谱-串联质谱鉴定复杂生物样品中的蛋白质。我们描述了一种算法,称为Percolator,用于提高从串联质谱收集的可靠肽识别率。Percolator使用半监督机器学习来区分正确和虚假光谱识别,相对于完全监督的方法,正确地将肽分配给来自胰蛋白酶酿酒酵母数据集的17%以上的光谱,以及来自非胰蛋白酶消化物的高达77%以上的光谱。

 Percolator的目标是对一组候选PSM进行排序,以最大化在目标错误发现率下识别的
pep- tides的数量。我们的方法,我们称之为Percolator,分三个阶段进行(见算法
1)。最初,我们使用一个未改组的和一个改组的序列数据库对光谱运行两次现有的肽
识别算法。虽然我们选择使用从混洗序列中得到的诱饵来演示Percolator,但是我
们的软件可以使用任何类型的诱饵,包括从反向数据库中生成的诱饵。对于每个频
谱,我们根据每个数据库存储得分最高的PSM。我们将这些分别称为目标和诱饵
PSM。对于每个目标和诱饵PSM,我们计算一个20个特征的向量,总结在表1中。这
些特征在算法期间保持固定。我们将诱饵PSM随机分成两半,第二阶段使用一半,第
三阶段使用另一半。在算法结束时,目标PSM的子集将被识别为正确的。
第二阶段是迭代的,并且每个迭代包括三个步骤:(1)选择高置信度目标PSM的子
集作为正训练集,(2)训练SVM来区分正PSM和假PSM,以及(3)使用训练的分类器对
整个PSM集重新排序。为了选择正PSM,我们通过序列XCorr对目标和诱饵PSM进行
排序,并且我们设置阈值以达到用户指定的目标q值。高于阈值的目标PSM包括正训
练集,所有诱饵PSM包括负训练集。然后,我们使用修改的有限牛顿l2-SVM解算器
[2,5],训练线性SVM来区分正负PSM。这种训练非常快:在70,000个PSM上训练分
类器在Athlon MP Opteron 842 CPU上大约需要2秒钟。在随后的迭代中,排序由我
们的判别分类器产生,而不是由XCorr产生。该算法在固定次数的迭代后终止。经验
证据(补充图3)表明,十次迭代足以实现一组稳定的PSM,并且无论用户指定的q值
阈值如何,该算法的性能都非常相似。
在第三阶段,我们将最终的SVM应用于整个目标PSM集,以及
第二组诱饵PSM。得到的排序列表给出了每个目标PSM的q值的无偏估计[6],即形成
包括PSM的一组肯定标识所需的最小错误发现率阈值。
Percolator是用C++实现的,使用了来自SVMlin [2]的SVM优化代码。该软件(包
括源代码)可从以下网址下载http://noble.gs.washingtonedu/项目/过滤器。

  • DeepRescore:利用深度学习改进免疫肽组学中的肽识别

在基于质谱(MS)的免疫肽组学中,主要组织相容性复合体(MHC)结合肽的鉴定在很大程度上依赖于为蛋白质组学数据分析开发的数据库搜索引擎。然而,由于免疫肽组学实验不涉及特定残基的酶消化,膨胀的搜索空间导致肽鉴定的高假阳性率和低灵敏度。为了提高肽识别的灵敏度和可靠性,开发了一种后处理工具DeepRescore。DeepRescore将来自深度学习预测的肽特征(即准确的保留时间和MS/MS谱预测)与以前用于重新存储肽谱匹配的特征相结合。使用两个公开的免疫肽组学数据集,结果表明,与现有方法相比,通过DeepRescore重新筛选可提高MHC结合肽和新抗原鉴定的敏感性和可靠性。研究还表明,性能的提高在很大程度上是由深度学习衍生的特征驱动的。DeepRescore是使用NextFlow和Docker开发的,可在https://github.com/bzhanglab/DeepRescore

 

 
posted @   十年后一起潇  阅读(341)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示