Uncovering thousands of new peptides with sequence-mask-search hybrid de novo peptide sequencing framework (使用序列掩码搜索结合肽段从头测序框架发现了数千个新肽段)-解读人:刘佳维
期刊名:Molecular & Cellular Proteomics
发表时间:(2019年12月)
IF:4.828
单位:
- 朱拉隆功大学
- 费城威斯塔研究所
物种:人
技术:de novo从头测序,深度学习
一、 概述:
该研究开发了一种基于深度学习的肽段从头测序框架SMSNet,在保持良好的识别覆盖率的同时,氨基酸准确度能达到95%以上。SMSNet揭示了超过10000个以前未分类的人类白细胞抗原(HLA)和磷酸肽,并结合数据库搜索方法,将肽鉴定的覆盖范围扩大了近30%。
二、 研究背景:
基于质谱的蛋白质组学数据的典型分析方法数据库搜索方法仅识别在参考数据库中存在的氨基酸序列,限制了发现新的肽的可能性,例如那些含有未经特征化突变的肽,或者那些起源于rna和蛋白质的意外加工的肽。相反,从头测序方法直接从观察到的质谱中确定氨基酸序列,但有时精度较低。尽管近年来已经证明了深度学习可以有效地应用于从头测序问题,但从头测序方法和数据库搜索方法在识别肽的准确性和数量方面仍存在巨大的性能差距。这一限制的关键部分在于质谱谱图是有噪声的,有时会缺乏关键信息。如何解决这一问题是提升从头测序方法的关键所在。
三、实验设计:
SMSNet序列掩码搜索框架
四、研究成果:
1、与目前最新的de novo测序软件DeepNoVo相比,SMSNet的性能要更好一些。由于DeepNovo没有后处理功能,为了保证比较的公平,分别展示了SMSNet在重新评分和不重新评分的情况下的性能。在下图中:
a,在由DeepNovo的作者整理的数据集上评估SMSNet和DeepNovo的氨基酸水平性能。图中标示了在5%氨基酸错误发现率下的相应召回率。
b,直方图展示了在由DeepNovo的作者整理的数据集上进行评估时,SMSNet和DeepNovo产生的置信度得分的分布。
c-d,在本文的WCU-MS-BEST数据集上进行了类似a-b的评估。
e-f,在蛋白质组学数据库获得的合成肽的高质量MS/MS谱数据集上进行了类似a-b的评估。
2、使用SMSNet发现了大量新的HLA抗原。在下图中:
a,使用堆叠条形图展示了由SMSNet识别的MS/MS光谱的数量以及SMSNet与先前使用Spectrum Mill软件进行MS/MS数据解释的研究之间的重叠。
b,使用堆叠条形图展示了由SMSNet识别的peptide-HLA对与免疫表位数据库(IEDB)之间的重叠。在10702个新鉴定的peptide-HLA对中,有7034种不同的肽。
c,新鉴定到的7034种肽的长度分布。
d,使用直方图和序列logos,比较了仅由SMSNet(左)、SMSNet+先前研究(中)和仅由先前研究(右)识别的peptide-HLA对之间预测的结合亲和力与核心序列motifs。
e,使用饼图展示了新鉴定的7034种肽的来源。
3、使用SMSNet提高了人类磷蛋白组鉴定的覆盖率。在下图中:
a,使用堆叠条形图展示了由SMSNet识别的MS/MS光谱的数量以及SMSNet与先前研究之间的重叠。
b,将SMSNet的鉴定结果加入到人类蛋白质组数据库中并用MaxQuant重新分析后,所鉴定到的MS/MS谱和磷酸肽的数量的增加和减少。
c,使用堆积条形图展示了由MaxQuant和SMSNet识别的磷酸肽数量,以及通过MaxQuant重新分析SMSNet结果从而识别到的新磷酸肽的数量。
d,饼图展示了通过将SMSNet的鉴定使用MaxQuant重新分析新鉴定到的肽的组成。这包括先前研究未鉴定的所有MS/MS光谱中的磷酸肽和非磷酸肽鉴定。
e,使用热图和线性图展示了4341个新鉴定的磷酸肽在使用MaxQuant对6个对照组和6个表皮生长因子处理的实验组进行重分析后的重现性。热图中的每一行对应一个质谱实验。
f,使用饼图展示了新鉴定的磷酸肽与PhosphoSitePlus数据库中已知的磷酸蛋白和磷酸位点之间的重叠。一个已识别的磷酸肽只有在数据库中报告了该肽上所有已识别的磷酸化位点时才被算作“Known phosphosites”。
五、文章亮点(结论讨论):本文开发的SMSNet结合了基于机器学习的现代方法和序列标记方法的优点,前者能够确定整个氨基酸序列,后者使用序列中置信度高的部分作为种子从数据库中检索完整序列,大大提升了从头测序方法的准确率。因此,SMSNet有望在新抗原发现、抗体测序和非模式生物的特征等蛋白质组学和肽组学的研究中有良好的表现。
阅读人:刘佳维