概率论沉思录:初等假设检验
导言
我认为思想是运动的,而论证是驱动思想到某个方向的动力。
——约翰·克雷格(John Craig, 1699)
我们在上一篇博客《概率论沉思录:初等抽样论》中介绍了传统的抽样理论。其中,我们导出了几种经典的抽样分布,也即给定关于所观察现象的假设,数据的概率分布。在上一篇博客中提到的伯努利坛子模型中,假设即坛子的内容,数据即重复抽球所生成的红球和白球序列。但正如我们我们在上一篇博客的末尾所述,几乎所有实际的科学推断问题都处在相反的使用场景:我们已知数据,希望确定假设。更一般地说,已知数据,如何求概率分布,以指出给定假设中哪一个成立?
例如,我们的假设可能是对生成数据的物理机制的各种推断。但是从根本上讲,物理因果关系不是问题的必要组成部分,重要的只是假设和数据之间有某种逻辑关系。我们将这类问题称为假设检验(hypothesis testing)。
注 本书[1][2]采用贝叶斯派的视角,参数估计的过程实际上就是在进行假设检验了。因此,接下来讲的假设检验将与频率派的假设检验不太一样。事实上,贝叶斯派的假设检验不需要概率之外的特定工具(ad hoc devices),而频率派需要。
1 科学推断的基本原理
首先,我们引入先验概率的概念。除了与当前问题有关的新信息或数据之外,我们用来表示机器人几乎总是会拥有的其它信息。这至少包括它从离开工厂到收到当前问题为止的所有过去经验。对于机器人来说,所有概率至少要以为条件。我们称仅以为条件的概率为先验概率(prior probability)。需要注意的是,“先验”一词并不一定意味着时间上更早,这种区别纯粹是逻辑上的。根据定义,除了当前问题的直接数据之外的任何其它信息都是“先验信息”。
注 还需要指出的是,伊曼努尔·康德(Immanuel Kant)引入a-priori[3]一词来表示可以独立于经验而知道真假的命题,而我们这里使用的“先验信息”不表示这种意思。只简单地表示机器人拥有的我们所称“数据”之外的其它信息。
引入先验概率后,再加上我们在博客《概率论沉思录:定量规则》中提到的乘法规则,我们就可以着手解决假设检验问题了。现做如下命题定义:
- :先验信息。
- :待检验的假设。
- :数据。
根据乘法规则,我们有:
在上一篇博客《概率论沉思录:初等抽样论》中,我们并不需要特别注意先验信息,因为所有概率都以为条件,所以我们可以隐含地假设,定义问题的一般先验信息已经包含在中。但是现在,所求的这些概率不再至少以为条件,而是至少以为条件,因此需要为它们使用不同的符号。
考虑上式的最后一个等式,进行移项后可以将表示为乘上一个对先验概率的调整因子:
关于上述等式的各项,我们做以下的名词约定:
- :称为后验概率(posterior probability)。同样需要注意的是,这仅意味着“在逻辑上处在特定推理链的后面”,而不一定“时间上更晚”。一个人的先验概率可能是另一个人的后验概率。实际上只有一种概率,我们使用不同的名称仅指组织计算的特定方式。
- :称为似然(likelihood),记作。可以看出是我们在上一篇博客《概率论沉思录:初等抽样论》中介绍的抽样分布,它在固定时依赖于。但是在这篇博客中,我们将根据不同的假设考察固定的数据集,当固定考察对的依赖时,我们称其为“似然”。似然本身并不是的概率。它是一个无量纲的数值函数。当与的先验概率和归一化因子相乘时,它可以成为概率。
- :称为归一化因子。注意,很多文献和教材将这里的归一化因子称为“证据”,但“证据”在本书中已经被用于定义其它的东西,故在此说明一下。
对于许多科学推断问题,式指出了需要计算哪些概率才能判断我们的全部证据证明了哪些结论是合情的。如果非常接近1(或0),那么我们可以得出结论:非常可能为真(或假),并采取相应的行动。但是,如果距不远,则机器人会警告我们可用的证据不足以证明任何可靠的结论,我们需要获得更多更好的证据。
2 二元假设检验
最简单的假设检验问题只有两个假设要检验,并且只有两种可能的结果。首先,我们使式变成这种二元情形。它给出了为真的概率;对于为假的概率,我们同样可以写出
取两个等式的比值,得到
这里我们拥有的量,即为真的概率与它为假的概率之比,我们称其为命题的 “几率”(odds)。
注 odds在赌博的场景中一般翻译成“赔率”,在本书中它只是用作的代名词,是概率的单调函数。本书中都翻译成几率。
定义,我们可以将上式写为:
可见的后验几率等于的先验几率乘以一个叫做似然比的无量纲因子。
在许多应用中,取几率的对数会更方便,因为我们可以累加各项。我们定义一个新函数,称为给定和时的证据(evidence):
它仍然是概率的单调函数。通过使用底数并将因子放在前面,我们现在以分贝(decibels,以下简写为) 为单位来衡量证据。在给定的情况下,的证据等于的先验证据加上通过计算下式最后一项中的对数似然所得到的数量:
现在假设这个新信息实际上包含几个不同的命题:。那么,应用乘法规则有:。但在许多情况下,获得的概率不受关于的知识的影响,即,也即机器人分配给和的概率是独立(independent) 的。再次重申:我们关注的是逻辑独立性,而不是物理的因果独立性。通常,随着机器人的知识状态(以和表示)发生变化,以它们为条件的概率可能会从相互独立的变为相互依赖的,反之亦然。但是事件的真实属性保持不变。
如果在给定的条件下,数据的概率是逻辑独立的,则似然比可以展开为
其中的和式取遍我们获得的所有额外信息。
为了对这里的数值有直观的认识,我们可以将证据()、几率()和概率()构建成如下的表:
证据 () | 几率 () | 概率 |
---|---|---|
进一步绘制成如下所示的图:
从上面的图和表中我们可以明显地看出为什么以分贝()为单位给出证据非常有力。当概率接近或时,我们的直觉很差。对我们来说,和的概率差别没多大意义,但是和的证据之间的差别确实对我们有明确意义。
现在让我们将式应用于一个特定的工业质量问题中(尽管也可以将其表述为其它问题)。假设先验信息如下:
- :我们有11台自动机器,这些机器将其生产出的小部件输出到11个盒子中。该过程对应于小部件生产的早期阶段,因为有10台机器会生产1/6的坏部件。第11台机器更糟,会生产1/3的坏部件。每台机器输出的部件被分别放在一个未贴标签的盒子中,并存储在仓库中。
我们选择一个盒子并抽样检测其中的一些小部件,将它们分为“好”和“坏”。我们的目标是判断是否选择了那个糟糕机器对应的盒子,然后判断是要接受还是拒绝它。
我们把这项工作交给我们的机器人,看看它是如何工作的。首先,它必须找到待检验假设的先验证据。我们定义以下两个假设:
- :选择了的次品率的坏批次。
- :选择了的次品率的好批次。
先验信息的定性部分告诉我们,只有两种可能性。因此,在产生的逻辑背景下,两个命题是互否的关系:给定,我们有。
唯一的定量先验信息是有11台机器,我们不知道是哪台机器制造了我们选择的批次,因此根据无差别原则有,于是
(同理,我们有)
在此问题中,与计算有关的唯一信息只是这些数值,即。因此,我们没必要说我们仅在谈论11台机器的问题。可能只有一台机器,而这里的先验信息是我们之前使用它的经验:使用该机器时,有多少概率遇到好批次/坏批次。在这里,重要的是好批次/坏批次的先验概率。
如果我们取出一个坏部件,将会增加这是坏批次的证据;如果我们取出一个好部件,将会减少这是坏批次的证据。我们设为批次中的部件总数,我们依次抽取个部件进行检测,且假设,也即我们连续进行次有放回抽样,此时正如我们在上一篇博客《概率论沉思录:初等抽样论》中提到的,超几何分布的极限形式,即二项分布将适用。设我们检测的个部件中,有个坏部件和个好部件,则我们可以得到这是坏批次的后验证据为
可见,一旦我们使用对数,计算是多么简单。机器人的思想以一种非常简单直接的方式“朝某个方向被驱动”。假设我们抽样的样本有80%的小部件是坏的,我们可以将其可视化为如下所示的图:
现在,我们拥有的只是选择了坏批次的假设的概率、几率或证据。最终,我们必须做一个决定:是接受它,还是拒绝它。这时我们该怎么办呢?当然,我们可以事先决定:如果假设的概率达到一定的值,那么就判定为真,如果它下降到某个值,那么就判定为假。
概率论本身不会告诉我们做出决策的临界值在哪里。这必须基于价值判断:做出错误决定的后果是什么?进行进一步检测的代价是什么?这会将我们带入决策论领域,我们后面会进行讨论。目前比较明显的是犯第一类错误(接受坏批次)可能比犯另一类错误(拒绝好批次)的后果更为严重。这将对我们如何设置临界值产生明显的影响。
因此,我们可以给机器人一些指示,例如“如果的证据大于,则拒绝该批次(它很可能是坏的而不是好的)。如果的证据低至,则接受该批次(它至少有的概率是好的)。否则,请继续检测。”
上述方法是我们的机器人根据命题的后验概率达到一定水平后选择拒绝它或接受它的方法,这个非常有用且强大的流程在统计文献中称为 “序列推断(sequential inference)”,该术语表明检测次数不是预先确定的,而是取决于我们发现的数据值的顺序。
3 多重假设检验
假定在刚刚讨论的序列检测过程中,我们测试了50个小部件,结果每个小部件都是坏的。根据式,坏批次假设证据的最终结果是,这是的概率。但是,我们的常识会倾向于拒绝这一结论,我们会对这个批次中只有是坏部件产生怀疑。
在当前的问题中,我们可以使机器人在看到“太多”坏部件时对持怀疑态度,方法是额外提供一个指出这种可能性的假设。我们在假设:我们有一个有坏部件的盒子,假设:我们有一个有坏部件的盒子的基础之上,添加第三个假设:制造小部件的机器完全出了问题,会生产的坏部件。
现在,我们必须调整先前的概率,以考虑这种新的可能性。但是我们不希望问题的性质发生重大改变。因此,我们让假设的先验概率非常低,为()。
我们定义以下三个假设:
- :我们选择了有坏部件的盒子。
- :我们选择了有坏部件的盒子。
- :我们选择了有坏部件的盒子。
这三个假设的初始概率依次为:。因子实际上可以忽略不计,于是我们有
设与数据有关的命题是“我们抽样检测的个部件中,每个都是坏部件”,则我们可以得到命题的后验证据为
其中(我们仍然假设盒子里的小部件总数比被抽样检测的数量大很多,因此这里近似为无放回抽样)。而对于,我们在计算的过程中将会用到两次乘法规则:
于是我们有
如果,一个很好的近似是
如果,一个很好的近似是
与此同时,我们想知道假设和发生了什么。在测试了个小部件并且证明了它们都是坏的之后,假设和假设的证据以及近似形式如下:
当抽样检测样本的次品率为时,假设、、的证据随抽样次数的变化如下图所示:
可以看到,曲线和曲线的初始直线部分代表我们在引入新假设之前发现的解。新假设在初始时会被暂时搁置, 它的影响直到穿过时才出现(本书作者将其这种现象称为“死假设”“复活”)。从这一点往后,曲线不再继续向上,而是转而向下。机器人确实已经学会了如何怀疑。但是,曲线在这一点上并没有改变,它一直线性延伸到和具有相同合情性的位置。
对这种现象的解释是,上述的多重序列检测可以近似看作是交替进行的二元假设检验:最初的合情性远高于,我们实际上基本上是在针对检验,然后重现了式的解。在积累了足够的证据后,的合情性达到了与相同的水平之后,基本上将是针对而不是检验。
更一般地说,只要我们有一组离散的假设,则其中任何一个的合情性变化都将近似是针对单个备择假设——所有假设当中最合情的那个备择假设进行检验的结果。
在这个针对、、三种假设进行检验的示例中,有没有可能“死假设”不会“复活”呢?确实是有可能的。存在一个“怀疑阈值”,只要观察到的次品率小于这个值,机器人就永远不会怀疑命题和命题,“死假设”也永远不会“复活”。
我们之前得到的的近似公式考虑的是我们检测的个部件全是坏部件的情况。现在我们考虑其中有个坏部件和个好部件的情况(类似于式中描述的情况),则
其中。于是我们有
如果想要的后验证据在次抽样检测中获得提升,则要求
其中为次品率。因此,如果次品率,机器人相对于命题和命题更倾向于命题,也就意味着“死假设”会“复活”;如果次品率,则“死假设”不会“复活”。但是,如果次品率接近,则需要进行许多次检测才能使“死假设”“复活”。
比如,当抽样检测样本的次品率为时,假设、、的证据随抽样次数的变化如下图所示:
可以看到,曲线和曲线对应我们在引入新假设之前发现的解,而新假设则一直会被搁置, 也就意味着“死假设”将不能够“复活”。
4 连续概率分布函数
接下来,我们对上面的例子进行扩展。直截了当的是引入更多的“离散”假设。更有趣的是引入一系列连续的假设,例如
- :机器人以的比例生产坏部件(可以是中的任何数值)。
这样,与离散的先验分布不同,我们的机器人需要考虑在区间中具有的连续分布,并将根据观察到的样本计算取各种值的后验概率,由此可以做出各种决策。在继续我们对假设检验问题的讨论之前,我们先来讨论连续概率分布。
我们在博客《概率论沉思录:定量规则》中导出的推断规则仅针对离散命题()的有限集合情况得出,但我们在实践中可以将涉及连续假设的问题进行转换,然后用这些规则进行处理。假设是我们感兴趣的任意连续实参数变量,则我们可以定义以下离散、互斥且完备的命题:
因此,我们的规则一定适用于它们。给定一些先验信息,则的概率通常取决于,从而定义
它显然是单调增加的。接下来我们来看位于指定区间()的概率是多少。我们定义以下命题:
则布尔代数关系为,由于和互斥,则加法规则可简化为。又因为,,所以我们有
在当前情况下,是连续可微的,所以我们也可以写出
其中是的导数,通常称为概率分布函数(probability distribution function),或给定时的概率密度函数(probanility density function)。我们此后使用缩写PDF来表示它,与上述两种英文名称均一致。它的积分可以称为的累积分布函数(cumulative distribution function)。
5 检验无数假设
现在假定我们同时要检验无数个假设。我们可以使用分析的方法来使问题变得更简单。但是,之前我们采用的对数形式的公式就不太好用了,因此我们下面会回到式中的原始概率形式:
现在让代表假设“坏部件比例在的范围内”,其先验PDF为:
这给出了坏部件比例在区间内的概率。令表示迄今为止我们的实验结果:
- :抽样检测个小部件,其中有个坏部件和个好部件。
那么的后验PDF是
因此,先验PDF与后验PDF由
关联。分母是归一化常数。如果需要,通常可以要求后验PDF满足归一化条件,从而更简单地确定该分母:
我们有时,(详细证明过程请参见原书)。考虑假设:机器人以的比例生产坏部件,则在每次试验中取出坏部件的概率为,取出好部件的概率为。现在,又由于我们有假设盒子里的小部件总数比被抽样检测的数量大很多,因此不同试验的概率在给定时是逻辑独立的,于是类似我们在上一篇博客《概率论沉思录:初等抽样论》中推导二项分布那样,可以得到
(注意,这里与二项分布不同的是,实验数据是有顺序的)
因此,我们的后验PDF就可以表示为
我们在这篇博客中介绍的二元假设检验检验、多重假设检验都做为特殊情况包含在了这个公式中。例如我们之前讨论的针对、、三种假设的检验,其对应的先验PDF如下所示:
这里的函数在除了0以外的点函数值都等于0,而在其整个定义域上的积分等于1。当分别取值时,先验PDF分别为。
运用这里的后验PDF表达式来重新考虑我们之前提到的针对、、三种假设的检验问题,我们考虑对单个假设进行假设检验(),有
对比我们之前得到的:
我们发现,现在可以由得到。
现在,假设在检测刚开始时我们的机器人是刚出厂的,除了知道一台机器可能生产好部件也可能生成坏部件之外,它没有其它关于机器的先验知识。此时,机器人没有理由对于一个特定区间分配比其它区间更高的概率。因此,我们让机器人分配均匀先验概率密度。为了使得,我们取。此时,式中的积分就是著名的第一类欧拉积分(现在通常称为完全Beta函数),我们有:
注 数学中有两种类型的欧拉积分(Euler intergral)[4]:
- 第一类欧拉积分(Beta函数):
- 第二类欧拉积分(Gamma函数):
对于正整数,有。
上述后验分布在中有一个峰,通过令可以得到这是在处。其物理意义是观察到的坏部件比例或相对频率。为了寻找峰的尖锐程度,我们想对该函数进行进一步分析,由于该函数包括几个因子的累乘,我们对其进行取对数,得到:
然后在处对做二阶Taylor展开:
其中(这里需要注意)。
对于这个近似值,我们就得到了式的近似分布:
该分布称为高斯分布(Gaussian distribution)(或称正态分布(normal distribution))。其中是归一化常数,用于保证。实际上,只要且,这是在整个区间中对式的一个很好的逼近。
注 关于二项分布的正态逼近,有棣莫弗-拉普拉斯(de Moivre-Laplace)极限定理对其进行刻画。设重伯努利试验中,事件在每次试验中出现的概率为(),记为次试验中事件出现的次数,则当时,有(依分布)。这里的对应我们前面提到的,对应我们前面提到的,对应我们前面提到的。
因此,在次试验中观察到个坏部件后,的最概然值(the most likely value)是观察到的坏部件的比例,这合理地描述了机器人关于的知识状态。考虑的准确性,这个估计使得很可能包含真实值。参数称为PDF的标准差(standard deviation),称为PDF的方差(variance)。更准确地说,根据式进行分析,机器人分配概率如下:
随着测试次数的增加,这些区间会根据,正比于按比例缩小。
注 这里可以想到质量控制里用的较多的3 sigma法则(也被称为68-95-99.7法则)[5],也即对于服从正态分布随机变量,其观测值包含在中的概率为;包含在中的概率为;包含在中的概率为。
这样,我们看到机器人从对的“无知”状态开始,随着从测试中积累信息,它对的估计越来越确定,这与常识吻合。但是我们在这里需要强调,不会随时间变化,不是的真实属性而只是机器人表示其关于的知识状态的概率分布的属性。
6 简单假设与复合假设
到目前为止,我们考虑的假设(、、、)指的是单个参数,即盒子中坏部件的未知比例,而且为指定了一个明确定义的值(在中,它可以是中的任何数值)。这种假设称为简单假设(simple hypothesis),因为如果定义了一个包含所有参数的参数空间,这样的假设在中由单个点表示。
然而,有时我们不需要检验中的所有简单假设,只关心参数是位于某个子集还是其补集中,而不关心该子集中的特定值。我们称形如的假设为复合假设(compound/composite hypothesis)。我们是否可以直接处理复合假设,而不要求机器人检验中的每个简单假设呢?
事实上,在式中,我们几乎完成了所有工作,接下来我们只需要再进行一次积分消除冗余参数即可。参数空间由中的所有组成。假设若,我们需要采取一些措施(如关闭并重新调整机器);若,则应该让机器继续运行。那么我们定义为中的所有,令复合假设。由于的实际值无关紧要,现在称为冗余参数(nuisance parameter),我们想消去它。通过对冗余参数求积分,可以将其从式中消去:
在是均匀先验PDF的情况下,结果是不完全Beta函数:在任何指定区间中的后验概率为
计算机能够轻松计算这种形式的式子。
参考
- [1] Jaynes E T. Probability theory: The logic of science[M]. Cambridge university press, 2003.
- [2] 杰恩斯. 廖海仁译. 概率论沉思录[M]. 人民邮电出版社, 2024.
- [3] Kant I, Meiklejohn J M D, Abbott T K, et al. Critique of pure reason[M]. London: JM Dent, 1934.
- [4] 《维基百科:欧拉积分》
- [5] 《维基百科:68–95–99.7法则》
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 推荐几款开源且免费的 .NET MAUI 组件库
· 实操Deepseek接入个人知识库
· 易语言 —— 开山篇
· Trae初体验