概率论沉思录:初等假设检验

导言

我认为思想是运动的,而论证是驱动思想到某个方向的动力。

——约翰·克雷格(John Craig, 1699)

我们在上一篇博客《概率论沉思录:初等抽样论》中介绍了传统的抽样理论。其中,我们导出了几种经典的抽样分布,也即给定关于所观察现象的假设H,数据D的概率分布p(DH)。在上一篇博客中提到的伯努利坛子模型中,假设H即坛子的内容,数据D即重复抽球所生成的红球和白球序列。但正如我们我们在上一篇博客的末尾所述,几乎所有实际的科学推断问题都处在相反的使用场景:我们已知数据D,希望确定假设H。更一般地说,已知数据D,如何求概率分布p(H1D),p(H2D),,以指出给定假设{H1,H2,}中哪一个成立?

例如,我们的假设可能是对生成数据的物理机制的各种推断。但是从根本上讲,物理因果关系不是问题的必要组成部分,重要的只是假设和数据之间有某种逻辑关系。我们将这类问题称为假设检验(hypothesis testing)

本书[1][2]采用贝叶斯派的视角,参数估计的过程实际上就是在进行假设检验了。因此,接下来讲的假设检验将与频率派的假设检验不太一样。事实上,贝叶斯派的假设检验不需要概率之外的特定工具(ad hoc devices),而频率派需要。

1 科学推断的基本原理

首先,我们引入先验概率的概念。除了与当前问题有关的新信息或数据D之外,我们用X来表示机器人几乎总是会拥有的其它信息。这至少包括它从离开工厂到收到当前问题为止的所有过去经验。对于机器人来说,所有概率至少要以X为条件。我们称仅以X为条件的概率P(AX)先验概率(prior probability)。需要注意的是,“先验”一词并不一定意味着时间上更早,这种区别纯粹是逻辑上的。根据定义,除了当前问题的直接数据D之外的任何其它信息都是“先验信息”。

还需要指出的是,伊曼努尔·康德(Immanuel Kant)引入a-priori[3]一词来表示可以独立于经验而知道真假的命题,而我们这里使用的“先验信息”不表示这种意思。X只简单地表示机器人拥有的我们所称“数据”之外的其它信息。

引入先验概率后,再加上我们在博客《概率论沉思录:定量规则》中提到的乘法规则,我们就可以着手解决假设检验问题了。现做如下命题定义:

  • X:先验信息。
  • H:待检验的假设。
  • D:数据。

根据乘法规则,我们有:

P(DHX)=P(DHX)P(HX)=P(HDX)P(DX)

在上一篇博客《概率论沉思录:初等抽样论》中,我们并不需要特别注意先验信息X,因为所有概率都以H为条件,所以我们可以隐含地假设,定义问题的一般先验信息已经包含在H中。但是现在,所求的这些概率不再至少以H为条件,而是至少以X为条件,因此需要为它们使用不同的符号。

考虑上式的最后一个等式,进行移项后可以将P(HDX)表示为P(HX)乘上一个对H先验概率的调整因子:

(1)P(HDX)H的后验概率=P(HX)H的先验概率P(DHX)P(DX)

关于上述等式的各项,我们做以下的名词约定:

  • P(HDX):称为后验概率(posterior probability)。同样需要注意的是,这仅意味着“在逻辑上处在特定推理链的后面”,而不一定“时间上更晚”。一个人的先验概率可能是另一个人的后验概率。实际上只有一种概率,我们使用不同的名称仅指组织计算的特定方式。
  • P(DHX):称为似然(likelihood),记作L(H)。可以看出P(DHX)是我们在上一篇博客《概率论沉思录:初等抽样论》中介绍的抽样分布,它在固定H时依赖于D。但是在这篇博客中,我们将根据不同的假设{H,H,}考察固定的数据集D,当固定D考察P(DHX)H的依赖时,我们称其为“似然”。似然L(H)本身并不是H的概率。它是一个无量纲的数值函数。当与H的先验概率和归一化因子相乘时,它可以成为概率。
  • P(DX):称为归一化因子。注意,很多文献和教材将这里的归一化因子称为“证据”,但“证据”在本书中已经被用于定义其它的东西,故在此说明一下。

对于许多科学推断问题,式(1)指出了需要计算哪些概率才能判断我们的全部证据证明了哪些结论是合情的。如果P(HDX)非常接近1(或0),那么我们可以得出结论:H非常可能为真(或假),并采取相应的行动。但是,如果P(HDX)1/2不远,则机器人会警告我们可用的证据不足以证明任何可靠的结论,我们需要获得更多更好的证据。

2 二元假设检验

最简单的假设检验问题只有两个假设要检验,并且只有两种可能的结果。首先,我们使式(1)变成这种二元情形。它给出了H为真的概率;对于H为假的概率,我们同样可以写出

P(H¯DX)=P(H¯X)P(DH¯X)P(DX)

取两个等式的比值,得到

P(HDX)P(H¯DX)=P(HX)P(H¯X)P(DHX)P(DH¯X)

这里我们拥有的量,即H为真的概率与它为假的概率之比,我们称其为命题H“几率”(odds)

odds在赌博的场景中一般翻译成“赔率”,在本书中它只是用作p/(1p)的代名词,是概率的单调函数。本书中都翻译成几率。

定义O(HDX)P(HDX)P(H¯DX),我们可以将上式写为:

O(HDX)=O(HX)P(DHX)P(DH¯X)

可见H的后验几率等于H的先验几率乘以一个叫做似然比的无量纲因子。

在许多应用中,取几率的对数会更方便,因为我们可以累加各项。我们定义一个新函数,称为给定DXH证据(evidence)

e(HDX)10log10O(HDX)

它仍然是概率的单调函数。通过使用底数10并将因子10放在前面,我们现在以分贝(decibels,以下简写为dB 为单位来衡量证据。在给定D的情况下,H的证据等于H的先验证据加上通过计算下式最后一项中的对数似然所得到的dB数量:

e(HDX)=e(HX)+10log10[P(DHX)P(DH¯X)]

现在假设这个新信息D实际上包含几个不同的命题:D=D1D2D3。那么,应用乘法规则有:P(DHX)P(DH¯X)=P(D1HX)P(D1H¯X)P(D2D1HX)P(D2D1H¯X)。但在许多情况下,获得D2的概率不受关于D1的知识的影响,即P(D2D1HX)=P(D2HX),也即机器人分配给D1D2的概率是独立(independent) 的。再次重申:我们关注的是逻辑独立性,而不是物理的因果独立性。通常,随着机器人的知识状态(以HX表示)发生变化,以它们为条件的概率可能会从相互独立的变为相互依赖的,反之亦然。但是事件的真实属性保持不变。

如果在给定HX的条件下,数据D1,D2,D3,的概率是逻辑独立的,则似然比可以展开为

(2)e(HDX)=e(HX)+i10log10[P(DiHX)P(DiH¯X)]

其中的和式取遍我们获得的所有额外信息。

为了对这里的数值有直观的认识,我们可以将证据(e)、几率(O)和概率(p)构建成如下的表:

证据 (e) 几率 (O) 概率 (p)
0 1:1 1/2
3 2:1 2/3
6 4:1 4/5
10 10:1 10/11
20 100:1 100/101
30 1000:1 0.999
40 10000:1 0.9999
e 1/O 1p

进一步绘制成如下所示的图:

从上面的图和表中我们可以明显地看出为什么以分贝(dB)为单位给出证据非常有力。当概率接近10时,我们的直觉很差。对我们来说,0.9990.9999的概率差别没多大意义,但是30dB40dB的证据之间的差别确实对我们有明确意义。

现在让我们将式(2)应用于一个特定的工业质量问题中(尽管也可以将其表述为其它问题)。假设先验信息X如下:

  • X:我们有11台自动机器,这些机器将其生产出的小部件输出到11个盒子中。该过程对应于小部件生产的早期阶段,因为有10台机器会生产1/6的坏部件。第11台机器更糟,会生产1/3的坏部件。每台机器输出的部件被分别放在一个未贴标签的盒子中,并存储在仓库中。

我们选择一个盒子并抽样检测其中的一些小部件,将它们分为“好”和“坏”。我们的目标是判断是否选择了那个糟糕机器对应的盒子,然后判断是要接受还是拒绝它。

我们把这项工作交给我们的机器人,看看它是如何工作的。首先,它必须找到待检验假设的先验证据。我们定义以下两个假设:

  • A:选择了1/3的次品率的坏批次。
  • B:选择了1/6的次品率的好批次。

先验信息X的定性部分告诉我们,只有两种可能性。因此,在X产生的逻辑背景下,两个命题是互否的关系:给定X,我们有A¯=B,B¯=A

唯一的定量先验信息是有11台机器,我们不知道是哪台机器制造了我们选择的批次,因此根据无差别原则有P(AX)=1/11,于是

e(AX)=10log10P(AX)P(A¯X)=10log101/1110/11=10dB

(同理,我们有e(BX)=10dB

在此问题中,X与计算有关的唯一信息只是这些数值,即±10dB。因此,我们没必要说我们仅在谈论11台机器的问题。可能只有一台机器,而这里的先验信息是我们之前使用它的经验:使用该机器时,有多少概率遇到好批次/坏批次。在这里,重要的是好批次/坏批次的先验概率。

如果我们取出一个坏部件,将会增加这是坏批次的证据;如果我们取出一个好部件,将会减少这是坏批次的证据。我们设N为批次中的部件总数,我们依次抽取n个部件进行检测,且假设Nn,也即我们连续进行n次有放回抽样,此时正如我们在上一篇博客《概率论沉思录:初等抽样论》中提到的,超几何分布的极限形式,即二项分布将适用。设我们检测的n个部件中,有b个坏部件和g个好部件,则我们可以得到这是坏批次的后验证据为

(3)e(ADX)=e(AX)+i=1b10log10[P(AX)P(A¯X)]+i=1g10log10[P(AX)P(A¯X)]=e(AX)+b10log101/31/6+g10log102/35/6e(AX)+3bg

可见,一旦我们使用对数,计算是多么简单。机器人的思想以一种非常简单直接的方式“朝某个方向被驱动”。假设我们抽样的样本有80%的小部件是坏的,我们可以将其可视化为如下所示的图:

现在,我们拥有的只是选择了坏批次的假设的概率、几率或证据。最终,我们必须做一个决定:是接受它,还是拒绝它。这时我们该怎么办呢?当然,我们可以事先决定:如果假设A的概率达到一定的值,那么就判定A为真,如果它下降到某个值,那么就判定A为假。

概率论本身不会告诉我们做出决策的临界值在哪里。这必须基于价值判断:做出错误决定的后果是什么?进行进一步检测的代价是什么?这会将我们带入决策论领域,我们后面会进行讨论。目前比较明显的是犯第一类错误(接受坏批次)可能比犯另一类错误(拒绝好批次)的后果更为严重。这将对我们如何设置临界值产生明显的影响。

因此,我们可以给机器人一些指示,例如“如果A的证据大于0dB,则拒绝该批次(它很可能是坏的而不是好的)。如果A的证据低至13dB,则接受该批次(它至少有95%的概率是好的)。否则,请继续检测。”

上述方法是我们的机器人根据命题A的后验概率达到一定水平后选择拒绝它或接受它的方法,这个非常有用且强大的流程在统计文献中称为 “序列推断(sequential inference)”,该术语表明检测次数不是预先确定的,而是取决于我们发现的数据值的顺序。

3 多重假设检验

假定在刚刚讨论的序列检测过程中,我们测试了50个小部件,结果每个小部件都是坏的。根据式(3),坏批次假设证据e(ADX)的最终结果是140dB,这是11014的概率。但是,我们的常识会倾向于拒绝这一结论,我们会对这个批次中只有1/3是坏部件产生怀疑。

在当前的问题中,我们可以使机器人在看到“太多”坏部件时对A持怀疑态度,方法是额外提供一个指出这种可能性的假设。我们在假设A:我们有一个有1/3坏部件的盒子,假设B:我们有一个有1/6坏部件的盒子的基础之上,添加第三个假设C:制造小部件的机器完全出了问题,会生产99%的坏部件。

现在,我们必须调整先前的概率,以考虑这种新的可能性。但是我们不希望问题的性质发生重大改变。因此,我们让假设C的先验概率P(CX)非常低,为10660dB)。

我们定义以下三个假设:

  • A:我们选择了有1/3坏部件的盒子。
  • B:我们选择了有1/6坏部件的盒子。
  • C:我们选择了有99/100坏部件的盒子。

这三个假设的初始概率依次为:P(AX)=111(1106),P(BX)=1011(1106),P(CX)=106。因子1106实际上可以忽略不计,于是我们有

e(AX)=10dB,e(BX)=10dB,e(CX)=60dB

设与数据有关的命题D是“我们抽样检测的n个部件中,每个都是坏部件”,则我们可以得到命题C的后验证据为

(4)e(CDX)=e(CX)+10log10[P(DCX)P(DC¯X)]

其中P(DCX)=(99100)n(我们仍然假设盒子里的小部件总数N比被抽样检测的数量n大很多,因此这里近似为无放回抽样)。而对于P(DC¯X),我们在计算的过程中将会用到两次乘法规则:

P(DC¯X)=P(DX)P(C¯DX)P(C¯X)=P(DX)[P(ADX)+P(BDX)]P(AX)+P(BX)=P(DX)[P(DAX)P(AX)P(DX)+P(DBX)P(BX)P(DX)]P(AX)+P(BX)=P(DAX)P(AX)+P(DBX)P(BX)P(AX)+P(BX)=(13)n(111)+(16)n(1011)(111)+(1011)(1106忽略不计)=(111)(13)n+(1011)(16)n

于是我们有

(5)e(CDX)=e(CX)+10log10[(99100)n(111)(13)n+(1011)(16)n]

如果n>5,一个很好的近似是

e(CDX)49.6+4.73n,n>5

如果n<5,一个很好的近似是

e(CDX)60+7.73n,n<3

与此同时,我们想知道假设AB发生了什么。在测试了n个小部件并且证明了它们都是坏的之后,假设A和假设B的证据以及近似形式如下:

(6)e(ADX)=e(AX)+10log10[(13)n(16)n+1110×106(99100)n]{10+3n,n<7,+49.64.73n,n>8

(7)e(BDX)=e(BX)+10log10[(16)n(13)n+11×106(99100)n]{103n,n<10,+59.67.73n,n>11

当抽样检测样本的次品率为100%时,假设ABC的证据随抽样次数的变化如下图所示:

可以看到,曲线A和曲线B的初始直线部分代表我们在引入新假设C之前发现的解。新假设C在初始时会被暂时搁置, 它的影响直到C穿过B时才出现(本书作者将其这种现象称为“死假设”C“复活”)。从这一点往后,曲线A不再继续向上,而是转而向下。机器人确实已经学会了如何怀疑。但是,曲线B在这一点上并没有改变,它一直线性延伸到AC具有相同合情性的位置。

对这种现象的解释是,上述的多重序列检测可以近似看作是交替进行的二元假设检验:最初B的合情性远高于C,我们实际上基本上是在针对B检验A,然后重现了式(3)的解。在积累了足够的证据后,C的合情性达到了与B相同的水平之后,基本上将是针对C而不是B检验A

更一般地说,只要我们有一组离散的假设,则其中任何一个的合情性变化都将近似是针对单个备择假设——所有假设当中最合情的那个备择假设进行检验的结果。

在这个针对ABC三种假设进行检验的示例中,有没有可能“死假设”C不会“复活”呢?确实是有可能的。存在一个“怀疑阈值”,只要观察到的次品率fb=b/n小于这个值,机器人就永远不会怀疑命题A和命题B,“死假设”C也永远不会“复活”。

我们之前得到的e(CDX)的近似公式考虑的是我们检测的n个部件全是坏部件的情况。现在我们考虑其中有b个坏部件和g个好部件的情况(类似于式(3)中描述的情况),则

e(CDX)=e(CX)+i=1b10log10[P(CX)P(C¯X)]+i=1g10log10[P(CX)P(C¯X)]

其中P(CX)=99100,P(CX)=1100P(C¯X)=(13)(111)+(16)(1011)(111)+(1011)(1106)=(111)(13)+(1011)(16)=211,P(C¯X)=(23)(111)+(56)(1011)(111)+(1011)(1106)=(111)(23)+(1011)(56)=911。于是我们有

e(CDX)=e(CX)+b10log1099/1002/11+g10log101/1009/11e(CX)+7b19g

如果想要C的后验证据e(CDX)n次抽样检测中获得提升,则要求

7b19g=26b19n=n(26fb19)>0

其中fbb/n为次品率。因此,如果次品率fb>19/26(0.73),机器人相对于命题A和命题B更倾向于命题C,也就意味着“死假设”C会“复活”;如果次品率fb<19/26,则“死假设”C不会“复活”。但是,如果次品率接近19/26,则需要进行许多次检测才能使“死假设”C“复活”。

比如,当抽样检测样本的次品率为60%时,假设ABC的证据随抽样次数的变化如下图所示:

可以看到,曲线A和曲线B对应我们在引入新假设C之前发现的解,而新假设C则一直会被搁置, 也就意味着“死假设”C将不能够“复活”。

4 连续概率分布函数

接下来,我们对上面的例子进行扩展。直截了当的是引入更多的“离散”假设。更有趣的是引入一系列连续的假设,例如

  • Hf:机器人以f的比例生产坏部件(f可以是0f1中的任何数值)。

这样,与离散的先验分布不同,我们的机器人需要考虑f在区间(0f1)中具有的连续分布,并将根据观察到的样本计算f取各种值的后验概率,由此可以做出各种决策。在继续我们对假设检验问题的讨论之前,我们先来讨论连续概率分布。

我们在博客《概率论沉思录:定量规则》中导出的推断规则仅针对离散命题(A,B,)的有限集合情况得出,但我们在实践中可以将涉及连续假设的问题进行转换,然后用这些规则进行处理。假设f是我们感兴趣的任意连续实参数变量,则我们可以定义以下离散、互斥且完备的命题:

F(fq),F(f>q)

因此,我们的规则一定适用于它们。给定一些先验信息X,则F的概率通常取决于q,从而定义

G(q)p(FX)

它显然是单调增加的。接下来我们来看f位于指定区间(a1<fa2)的概率是多少。我们定义以下命题:

A(fa1),B(fa2),W(a1<fa2)

则布尔代数关系为B=A+W,由于AW互斥,则加法规则可简化为P(BX)=P(AX)+P(WX)。又因为P(BX)=G(a2)P(AX)=G(a1),所以我们有

P(a1<fa2X)=P(WX)=G(a2)G(a1)

在当前情况下,G(q)是连续可微的,所以我们也可以写出

P(a1<fa2X)=a1a2g(f)df

其中g(f)=G(f)0G的导数,通常称为概率分布函数(probability distribution function),或给定Xf概率密度函数(probanility density function)。我们此后使用缩写PDF来表示它,与上述两种英文名称均一致。它的积分G(f)可以称为f累积分布函数(cumulative distribution function)

5 检验无数假设

现在假定我们同时要检验无数个假设。我们可以使用分析的方法来使问题变得更简单。但是,之前我们采用的对数形式的公式就不太好用了,因此我们下面会回到式(1)中的原始概率形式:

P(ADX)=P(AX)P(DAX)P(DX)

现在让A代表假设“坏部件比例在(f,f+df)的范围内”,其先验PDF为:

P(AX)=g(fX)df

这给出了坏部件比例在df区间内的概率。令D表示迄今为止我们的实验结果:

  • D:抽样检测n个小部件,其中有b个坏部件和nb个好部件。

那么f的后验PDF是

P(ADX)=P(AX)P(DAX)P(DX)=g(fDX)df

因此,先验PDF与后验PDF由

g(fDX)=g(fX)P(DAX)P(DX)

关联。分母是归一化常数。如果需要,通常可以要求后验PDF满足归一化条件P(0f1DX)=01g(fDX)df=101g(fX)P(DAX)P(DX)df=1,从而更简单地确定该分母:

P(DX)=01g(fX)P(DAX)df

我们有df0时,P(DAX)P(DHfX)(详细证明过程请参见原书)。考虑假设Hf:机器人以f的比例生产坏部件,则在每次试验中取出坏部件的概率为f,取出好部件的概率为(1f)。现在,又由于我们有假设盒子里的小部件总数N比被抽样检测的数量n大很多,因此不同试验的概率在给定f时是逻辑独立的,于是类似我们在上一篇博客《概率论沉思录:初等抽样论》中推导二项分布那样,可以得到

P(DHfX)=fb(1f)nb

(注意,这里与二项分布不同的是,实验数据D是有顺序的)

因此,我们的后验PDF就可以表示为

(8)g(fDX)=fb(1f)nbg(fX)01fb(1f)nbg(fX)df

我们在这篇博客中介绍的二元假设检验检验、多重假设检验都做为特殊情况包含在了这个公式中。例如我们之前讨论的针对ABC三种假设的检验,其对应的先验PDF如下所示:

g(fX)=111(1106)假设A的先验PDFδ(f13)+1011(1106)假设B的先验PDFδ(f16)+106假设C的先验PDFδ(f99/100)

这里的δ函数在除了0以外的点函数值都等于0,而在其整个定义域上的积分等于1。当f分别取值16,13,99100时,先验PDF分别为1011(1106),111(1106),106

运用这里的后验PDF表达式来重新考虑我们之前提到的针对ABC三种假设的检验问题,我们考虑对单个假设C进行假设检验(fA=16,fB=13,fC=99100),有

P(CDX)=(99100)n106δ(0)(13)n111(1106)δ(0)+(16)n1011(1106)δ(0)+(99100)m106δ(0)=(99100)n106(13)n111(1106)+(16)n1011(1106)+(99100)n106

对比我们之前得到的e(CDX)

e(CDX)=e(CX)+10log10[(99100)n(111)(13)n+(1011)(16)n]=10log101061106+10log10[(99100)n(111)(13)n+(1011)(16)n]=10log10[106(99100)n(1106)(111)(13)n+(1106)(1011)(16)n]

我们发现,e(CDX)现在可以由e(CDX)=10log10[P(CDX)1P(CDX)]得到。

现在,假设在检测刚开始时我们的机器人是刚出厂的,除了知道一台机器可能生产好部件也可能生成坏部件之外,它没有其它关于机器的先验知识。此时,机器人没有理由对于一个特定区间df分配比其它区间更高的概率。因此,我们让机器人分配均匀先验概率密度g(fX)=常数。为了使得01g(fX)df=1,我们取g(fX)=1,0f1。此时,式(8)中的积分就是著名的第一类欧拉积分(现在通常称为完全Beta函数),我们有:

(9)g(fDX)=fb(1f)nb01fb(1f)nbdf=fb(1f)nbB(b+1,nb+1)=(n+1)!b!(nb)!fb(1f)nb

数学中有两种类型的欧拉积分(Euler intergral)[4]

  1. 第一类欧拉积分(Beta函数):

B(x,y)=01tx1(1t)y1dt=Γ(x)Γ(y)Γ(x+y)

  1. 第二类欧拉积分(Gamma函数):

Γ(z)=0tz1etdt

对于正整数n,有Γ(n)=(n1)!

上述后验分布在(0f1)中有一个峰,通过令g(fDX)=0可以得到这是在f=f^=bn处。其物理意义是观察到的坏部件比例或相对频率。为了寻找峰的尖锐程度,我们想对该函数进行进一步分析,由于该函数包括几个因子的累乘,我们对其进行取对数,得到:

L(f)lng(fDX)=blnf+(nb)ln(1f)+常数

然后在f^处对L(f)做二阶Taylor展开:

L(f)=L(f^)+L(f^)(ff^)0+L(f^)2!(ff^)2+o((ff^)2)=L(f^)(ff^)22σ2+o((ff^)2)

其中σ2f^(1f^)N(这里需要注意L(f)=nf2+2bfbf2(1f)2,L(f^)=nb2n2+2bbnbf^2(1f^)2=b(bn1)f^2(1f^)2=b(1f^)f^2(1f^)2=bf^2(1f^)=bbnf^(1f^)=nf^(1f^))。

对于这个近似值,我们就得到了式(9)的近似分布:

(10)g(fDX)Kexp{(ff^)22σ2}

该分布称为高斯分布(Gaussian distribution)(或称正态分布(normal distribution))。其中K=12πσ2是归一化常数,用于保证01g(fDX)=1。实际上,只要b1(nb)1,这是在整个区间(0<f<1)中对式(9)的一个很好的逼近。

关于二项分布的正态逼近,有棣莫弗-拉普拉斯(de Moivre-Laplace)极限定理对其进行刻画。设n重伯努利试验中,事件A在每次试验中出现的概率为p0<p<1),记Snn次试验中事件A出现的次数,则当n时,有SnnN(p,pqn)(依分布)。这里的Snn对应我们前面提到的bnp对应我们前面提到的f^=bnq对应我们前面提到的1f^

因此,在n次试验中观察到b个坏部件后,f的最概然值(the most likely value)是观察到的坏部件的比例,这合理地描述了机器人关于f的知识状态。考虑f的准确性,这个估计使得f^±σ很可能包含真实值。参数σ称为PDF(10)标准差(standard deviation)σ2称为PDF(10)方差(variance)。更准确地说,根据式(10)进行分析,机器人分配概率如下:

f的真实值包含在 f^±0.68σ 中的概率为 50%包含在 f^±1.65σ 中的概率为 90%包含在 f^±2.57σ 中的概率为 99%

随着测试次数n的增加,这些区间会根据σ2=f^(1f^)n,正比于1n按比例缩小。

这里可以想到质量控制里用的较多的3 sigma法则(也被称为68-95-99.7法则)[5],也即对于服从正态分布N(μ,σ2)随机变量X,其观测值包含在μ±σ中的概率为68.3%;包含在μ±2σ中的概率为95.4%;包含在μ±3σ中的概率为99.7%

这样,我们看到机器人从对f的“无知”状态开始,随着从测试中积累信息,它对f的估计越来越确定,这与常识吻合。但是我们在这里需要强调,f不会随时间变化,σ不是f的真实属性而只是机器人表示其关于f的知识状态的概率分布的属性

6 简单假设与复合假设

到目前为止,我们考虑的假设(ABCHf)指的是单个参数f=M/N,即盒子中坏部件的未知比例,而且为f指定了一个明确定义的值(在Hf中,它可以是0f1中的任何数值)。这种假设称为简单假设(simple hypothesis),因为如果定义了一个包含所有参数的参数空间Ω,这样的假设在Ω中由单个点表示。

然而,有时我们不需要检验Ω中的所有简单假设,只关心参数是位于某个子集Ω1Ω还是其补集Ω2=ΩΩ1中,而不关心该子集中f的特定值。我们称形如HfΩ1的假设为复合假设(compound/composite hypothesis)。我们是否可以直接处理复合假设,而不要求机器人检验Ω1中的每个简单假设呢?

事实上,在式(8)中,我们几乎完成了所有工作,接下来我们只需要再进行一次积分消除冗余参数即可。参数空间Ω[0,1]中的所有f组成。假设若f>0.1,我们需要采取一些措施(如关闭并重新调整机器);若f0.1,则应该让机器继续运行。那么我们定义Ω1[0.1,1]中的所有f,令复合假设HfΩ1。由于f的实际值无关紧要,f现在称为冗余参数(nuisance parameter),我们想消去它。通过对冗余参数f求积分,可以将其从式(8)中消去:

P(Ω1DX)=Ω1fb(1f)nbg(fX)Ωfb(1f)nbg(fX)df

f是均匀先验PDF的情况下,结果是不完全Beta函数:f在任何指定区间(a1<f<a2)中的后验概率为

P(a1<f<a2DX)=(N+1)!n!(Nn)!a1a2fb(1f)nbdf

计算机能够轻松计算这种形式的式子。

参考

posted @   orion-orion  阅读(215)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 推荐几款开源且免费的 .NET MAUI 组件库
· 实操Deepseek接入个人知识库
· 易语言 —— 开山篇
· Trae初体验
点击右上角即可分享
微信分享提示