怎么判断蛋白质组学质谱鉴定准不准呢

搜库原理

我们再回到质谱数据分析的流程上。下图是一个简单的搜库过程，左边是wet lab实验，右边是计算机处理的过程，

蛋白样品酶解后得到复杂的肽段混合物，经过色谱分离，进入质谱，得到一级及二级离子信息。我们在搜库时，输入的是上万张二级谱图，以及相应的一级谱图信号，和母离子的精确质荷比。

那么，我们软件主要干哪些事情呢？

首先我们需要准备一个数据库（如果是de novo从头预测蛋白序列，则不需要准备）。

比如我们拿到人类的数据库，软件会根据我们设定的参数进行理论酶切。比如我们告诉软件此次试验用的是trypsin酶切，那么软件也会对每条蛋白序列的trypsin酶切位点进行断裂，与实验中的被处理的蛋白序列保持一致。

假设，我们将人的两万个蛋白进行理论酶切，会生成两百万个理论肽，这些理论肽又会生成理论b-y离子，得到理论的谱图。

下图右下角就是一个理论b-y离子谱图，可以看到，这样一个谱图，里面每一个离子的信号强度是很高的，而且是相同的。虽然有一些比较新的软件尝试进行理论强度的预测，但目前来讲还不算非常主流。

image

接下来，将理论的b-y离子谱图和通过质谱实际得到的谱图进行比对。

比对过程相对而言比较复杂。简单来说，类似于给你一堆照片，然后一堆真人，让你来判断哪张照片是哪个人的，软件做的就是类似的一个过程。

因此，生成理论酶切库，以及选择一个合适的肽段库，就跟我们识别照片去认人是一样的。选择的库越准确，筛选的速度和准确性就越高。也就是说要选择一个合适的搜库空间。

确定好合适的搜库空间后，我们会拿到与质谱数据相对比较贴近的理论肽段的数据列表，这些理论肽段的原子量都是可以预测出来的，一般来说根据肽段强度从几百到几千都会有一个列表。

质谱的原始谱图也会有相应的质荷比的列表，我们将这些质荷比按其电荷数还原成道尔顿，也会拿到一张表。将这两张表进行比对，这就是我们搜库软件做的核心工作，这也是设置母离子的容差，即MS1的tolerance非常重要的原因。

以Orbitrap举例，它的MS1的分辨率可以达到十几万或者二三十万，那么相应的母离子的质量容差就可以是5ppm甚至更小，所以，高分辨的好处就是可以把理论候选肽段的质量范围缩小到一个非常窄的范围，让匹配更加准确。

举例来说，如果母离子是1000Da±3ppm，那么理论候选肽就可能从上百种缩小到十种或者几种，再去进行比对，这样做的速度和灵敏度就会提高很多。但是如果你缩减到一个不太合理的范围，比如你的质谱分辨率是±10ppm，但是你却用1ppm去搜，那么很有可能正确的候选肽段都没有能够落到这个范围供你筛选，所得到的都是一堆错误的结果。软件是无法判断选进来的是否包含正确的序列，它仍然会进行打分给出结果，这就会造成一定的假阳性。

image

我们知道，搜库软件会对鉴定到的结果进行打分。那么这个分数是怎么来的呢？我们主要介绍一种常用的打分算法，即基于概率的打分。

为什么大多数搜库软件都要将搜库的比对过程用概率的算法进行匹配呢？这是因为，无论软件或者仪器，都不是上帝，我们无从知道所得到的谱图是不是是一个真正的肽段，或者说一定是来自于这个数据库中的某一个肽段。就算我们用BSA标准蛋白去做，也可能有一些杂峰或者错误匹配。所以这不是一个绝对的准确的答案。

因此软件需要对结果进行评价，来评估什么样的谱图更可能的是一个正确的肽段匹配，这就是基于概率打分的基本原理，即，将我们的实验测量值与候选多肽序列的理论值进行匹配。

实验测量值只有一张谱图，而候选多肽序列可能有10张甚至100张谱图，只要我们把道尔顿或ppm设置的足够小（因为氨基酸只有20种），那么其排列组合都会落到一个差不多的范围之内。因此理论候选多肽序列一般来说不止一种，而是会有十几种或者二三十种。软件会对各个结果进行比对，根据打分给出一个排列组合。

然而，得分值并不能准确地反映这个结果是不是一个正确的。所以我们会将它进行一个概率的转换，不同的软件用不同的算法会进行正确概率的计算，然后设定一个随机匹配的阈值，通常我们认为低于这个概率阈值的匹配，才是正确的匹配。

比如说p-value或者expectation-value小于0.05，或者说更严格的0.01，我们才认为这个结果是可靠的。也就是说现在的软件都会去计算相应的统计值。原理类似于高考考试，100人参加，我们认为考试分数得第一名的，且与第二名有相当大的分数差距的人，才是我们要寻找的那个人。

Tips：
关于p值等统计学参数的含义，感兴趣的小伙伴们可以参考以下的推文：
p值、E值、FDR、q值…你晕菜了吗？

在质谱鉴定的过程中，以下图来举例。大家会发现高强度的b-y离子谱峰都匹配上了，那么你觉得这张谱图的氨基酸序列vvllatgenk是不是一个正确匹配呢？

绝大多数人都会觉得此结果不错，应该是一个正确匹配。在Mascot软件中，这个结果的得分是35分，很多人认为25或者30分以上就是一个准确的结果。那这个结果到底是不是对的呢？

image

我们再来看下图的另外一个结果。下面这张谱图中，vvligdsgvgk这个肽段对于b-y离子的匹配更加丰富，看上去更加完整准确。事实上也是如此，它的得分达到了80分（Ions score），e-value是3.1X10^-5！

真是不比不知道，一比吓一跳，先前的35分可以说是一个很差的匹配了，而这个80分的结果才是一个真正准确的匹配。

从上面这个例子，大家应该能直观地感受到，在搜库软件中，即便得到一个得分看上去还不错的结果，也并不表示就是正确的匹配，而是需要进行可信度评估，才可能找出真正正确的匹配。

image

对于如何计算出一个匹配是正确匹配的概率，我们使用基于probability原理的算法。这个算法绝大多数的搜库软件中都会使用，比如Mascot。那么，它的基本思路是怎样的呢？

分两种情况。

首先，如果有一个标准品，并且我知道它的绝对成分，也就是说它不存在任何杂质的时候，我们可以说这样一个匹配是确定一定及肯定正确的！但是如果说样品的组成相对比较复杂，无法完全知道里面是什么东西，那么如何定义结果的准确性，就需要用到更加稳妥的参数或者实验设计，并且要更加稳妥的去定义正确的阈值到底是多少。

有的小伙伴可能会问这样的问题：是否可以建立一个目标蛋白的序列数据库来提高鉴定灵敏度呢？对这个问题感兴趣的小伙伴，请戳如下推文延展阅读：

蛋白鉴定攻略之--搜库只搜目标序列?

我们先来看看下图，这是一个实际的例子。这张谱图所有匹配的肽段的候选列表都已给出，大家可以看到1到4名分别是99,82,66,45.6分，除了99分的结果，看上去82和66分也都不错。但事实上，除了99分那条，后面匹配到的序列其实都是不正确的。

image

把刚才所说的过程换成下面这张示意图，大家可能更容易理解。图上红色的点是正确的匹配，剩下蓝色的点，就是我们刚才例子里说的除了99分以外的其它打分结果。

我们应该如何来评价红色的点就是正确的匹配结果呢？其实就是从统计分布图中来评判。假设红色的点和剩下的蓝色点的打分结果并没有显著的差异，比如绝大多数结果都在20到25分之间，那么我们认为这里面没有一个结果是可信的！

假设有一个结果是25分，而其余结果都是15分甚至更低，那么我们会认为这个25分的匹配是一个更加可信的结果。那么我们可不可以认为它一定是准确的呢？实事求是而言，也不一定，也有可能真正正确的序列并没有被放进数据库里搜索，如果放进去可能会出现一个明显高于25分的结果（大多数情况下，25分是一个比较差的得分）。

这就引出另一个问题，即数据库的选择！其实，过大或者过小的数据库都不是合理的选择。数据库过大，搜库时间很大，复杂度变大，得到随机错误匹配的概率变大；数据库过小，容易遗漏真正的目标序列，得不到正确的结果。