概率论沉思录:定量规则

托福这劳什子终于画上了句号,上个月完全有20天的时间属于是白白浪费掉了(# ̄~ ̄#),接下来我会继续更新概率论沉思录专栏并把之前的拖更补上(还得兼顾学日语,给自己加油!)。

导言

概率论只不过是把常识用数学公式表达了出来。

——拉普拉斯(Laplace, 1819)

我们在上一篇博客《概率论沉思录:合情推理》中介绍了合情推理[1][2]中所要满足的合情条件,即:

() () () 

其中,第()点的一致性条件又具体包含下列三个含义:

(a) (b) (c) 

上述条件都是定性的。在这一篇博客中我们将看到,上述条件皆不是空穴来风,而且不多不少刚刚好。一旦我们导出了满足上述合情条件的合情推理定量规则,我们就会发现,我们实际上就得到了概率的原始定义(乘法规则 + 加法规则 + 无差别原则)。

其中,条件()()(a)是机器人大脑的“结构性”条件,决定了推理机器人大脑的内部运作规则(这里的“大脑”可以指电路 / 神经网络 / ...),导出概率的乘法规则(product rule)

p(ABC)=p(AC)p(BAC)=p(BC)p(ABC)

加法规则(sum rule)

p(AB)+p(A¯B)=1

p(x)是任意连续单调递增函数,值域为0p(x)1

而条件(b)(c)是“接口”条件,进一步建立了推理机器人与客观世界的联系。其中,(c)导出概率的无差别原则(principle of indifference)

p(AiB)=1n,1in

{A1,,An}为互斥且穷尽的命题集合,即背景信息B决定了其中一个且仅一个必须为真)

接下来我们来看概率的乘法规则、加法规则和无差别原则究竟是怎样由合情条件导出的。

1 乘法规则

我们首先寻找将逻辑积AB的合情性和AB的合情性相关联的规则,也即找到ABC的表达式。我们将机器人判定AB为真的过程分解为对AB进行分步决策的过程,也即:

  1. 判定B为真;

    BC

  2. 接受B为真,判定A真。

    ABC

(先判定A为真的情况同理。我们将对应于每个步骤的合情性添加在了末尾)

我们用自然语言来解释一下。要想使命题AB为真,命题B必为真(根据逻辑积的定义),因此我们需要合情性BC。接着,我们需要进一步判定A为真,此时我们需要合情性ABC而非AC。这是因为,如果机器人知道B为假,则无论A的合情性如何(即AB¯C),AB都肯定为假。而一旦机器人知道ABC,它就不再需要知道AC了(这不会增加什么关于AB的新信息)。

此外,机器人并不需要知道ABBA。因为在不知道信息C的情况下,AB可能具有的合情性与机器人知道C为真时的判断无关。例如,如果机器人已经知道地球是圆的,那么在对今天的宇宙学问题做判断时,就不需要考虑如果不知道地球是圆的,它可能具有的观点(即考虑额外的可能性)。

(当然,由于逻辑积是可交换的,即AB=BA,所以我们可在上述语句中交换AB,就得到了BAC=ABC)。机器人可以以任意一种方式获得相同的ABC的值,即一致性条件(a):非路径依赖性)。

更进一步,我们有以下命题:

命题1 ABCBCABC的某个函数,即:

(1)ABC=F[(BC),(ABC)]

(同样也应为ACBAC的某个函数)

如果对上述推理有疑问的话,不妨考虑下其它的替代方案,比如ABC=F[(BC),(AC)]。但这种形式不能满足定性合情条件():类直觉条件,也即违反人类常识。因为给定CA可能很合情,B也可能很合情,但AB有可能很不合情。比如一个人左眼是蓝色的很合情,右眼是棕色的也很合情,但既有蓝色左眼又有棕色右眼就很不合情了。

关于这一点,已经被概率论/因果推断“剧透”过的同学应该就知道,左眼是蓝色与右眼是棕色这两个命题在因果上确实是独立的,但是在概率上仍然是不独立的。这是因为它们都有控制眼睛颜色的遗传基因来做为共变因(所谓混淆因子,confounder),以构成“A真则B假”的逻辑相关性(而非物理因果性)。

接下来我们来看看为满足我们的合情条件,结合函数F(x,y)需要具有怎样的性质(下面不妨设x=(BC), y=(ABC))。

我们先来考虑定性需求中的 ():类直觉条件。给定先验信息的变化CC,使B变得更合情,但A不变:

BC>BC,ABC=ABC

常识要求AB只能变得更合情,而不能相反:

ABCABC

等号当且仅当ABC对应于不可能时成立。这要求F(x,y)是关于x的单调递增函数且当且仅当y不可能时函数关于x偏导数为0。同理,F(x,y)还需要是关于y的单调递增函数且当且仅当x不可能时函数关于y偏导数为0。此外,函数F(x,y)还必须是连续的,否则(1)式右侧的一个合情性值的小幅增大也可能导致ABC的大幅增大。

综上所述,我们有以下命题:

命题2 F(x,y)必须是xy的连续单调递增函数。如果假设它是可微的(虽然不必要,但可简化我们的推导),我们有

(2)F1(x,y)Fx0,F2(x,y)Fy0

其中第一个式子等号当且仅当y表示不可能时成立。第二个式子等号当且仅当x表示不可能时成立(我们这里用Fi表示关于F的第i个参数的微分)。

接下来,我们施加“结构一致性”合情条件(a):非路径依赖性。比如,对于合情性ABCD,因为由布尔代数的结合性有ABC=(AB)C=A(BC),我们需要满足不管根据何种顺序计算合情性,都会得到相同的结果。比如,一种可能的顺序是先认为BC是一个命题,然后重复两次应用式子(1)

(ABCD)=F[(BCD),(ABCD)]=F{F[(CD),(BCD)],(ABCD)}

另外一种可能的顺序是把AB当成一个命题:

(ABCD)=F[(CD),(ABCD)]=F{(CD),F[(BCD),(ABCD)]}

这两个顺序所导出的合情性结果必须相等。此时,我们有下列命题:

命题3 机器人进行一致性推理的必要条件是,函数必须满足方程

(3)F[F(x,y),z]=F[x,F(y,z)]

阿贝尔最早在书中使用了这个方程,奥采尔将其称之为“结合方程”(The Associativity Equation)。

根据上述函数方程,最终我们可以证明下列结论(证明详情参见原书,书中假定了F的可微性):

结论1 如果要满足函数方程(3),那么我们要寻找的关系就必须采取如下函数形式:

(4)w(ABC)=w(ABC)w(BC)=w(BAC)w(AC)

我们将其称之为乘法规则(product rule)。这里w(x)为满足形式

w(x)exp{xdxH(x)}

的连续单调正值函数(到目前为止,它可以递增且可以递减,且取值任意),其中积分没有下限,H(x)为任意函数。

(4)是要达成一致性合情条件(a):非路径依赖性而必须要满足的必要条件。用数学归纳法也可证明,式(4)对任意数量的命题也都适用(如ABCDEFGH)。

事实上,除了连续单调递减之外,合情条件():类直觉条件对函数w(x)施加了额外的条件。例如在式(4)的第一种形式中,我们现在假设当给定CA是确定的,那么在由C的知识产生的“逻辑环境”中,命题AB=BAB为真当且仅当B为真)根据我们在上一章中讨论的最原始的公理,相同真值的命题必定有相同的合情程度,即

ABC=BC

除此之外,我们根据常识还需要有

ABC=AC

因为给定CA已经确定了(即C蕴含A),那么当给出任意与C不矛盾的其它信息B时,A仍然是确定的。

已经被概率论“剧透”过的同学应该就知道,给定CA是确定的给定C时,AB条件独立。

综上所述,式(4)变为

w(BC)=w(AC)w(BC)

无论B对机器人多么合情或不合情,它都必须成立。所以我们有以下命题:

命题4 函数w(x)还必须要具有如下性质:

(5)确定性由 w(AC)=1 表示

反过来,假设当给定CA是不可能的(即C蕴含A¯),此时式(4)变为

w(AC)=w(AC)w(BC)

无论B具有怎样的合情性,这个等式都必须成立。只有两个可能的w(AC)值满足这个条件:0+被排除了,否则根据连续性,w(BC)必须能够取负值,这与上式矛盾)。因此,我们有以下命题:

命题5 函数w(x)满足:

(6)不可能由 w(AC)=0 或 + 表示

综上所述,w(x)除了必须满足是连续单调正值函数外,根据合情条件():类直觉条件,它还需要满足下列要求:如果是增函数,则范围是从0(不可能)到1(确定);如果是减函数,它的范围必须是从+(不可能)到1(确定)(到目前为止,我们的条件还没说明它如何在这些范围内变化)。

这两种可能的表示方式在内容上没什么不同。给定符合上述标准并用+表示不可能的任意单减函数w1(x),我们同样可以定义同样符合上述标准并用0表示不可能的单增函数w2(x)1/w1(x)。因此,不失一般性,我们现在选择第一种形式。于是,我们有下列命题:

命题6 w(x)为满足下列要求的函数:

(7)0w(x)1,w(x)连续单调递增

不过到目前为止,除了上述条件之外,w(x)还是具有任意性。

2 加法规则

接下来我们来进一步对w(x)加以限制。由于我们现在考虑的命题属于亚里士多德逻辑类型,他们必须是非真即假的,其逻辑积AA¯总是假的(无矛盾律),逻辑和A+A¯总是真的(排中律)。这也就是说,A为假的合情性必须在某种程度上取决于它为真的合情性。如果我们定义uw(AB)vw(A¯B),则这意味着必定存在某种函数关系

v=S(u)

显然,如果我们要满足合情条件():类直觉条件,则必有下列命题:

命题7 S(u)0u1的连续单调递减函数,并且有极值

(8)S(0)=1,S(1)=0

但是进一步我们会发现,它不能是具有这些属性的任意函数,因为它还必须与ABAB¯的乘法规则一致:

w(ABC)=w(AC)w(BAC),w(AB¯C)=w(AC)w(B¯AC)

v=S(u)的关系代入上式得

w(ABC)=w(AC)S(w(B¯AC))=w(AC)S[w(AB¯C)w(AC)]

我们再次应用交换性:w(ABC)关于AB对称,因此一致性(a):非路径依赖性要求

(9)w(AC)S[w(AB¯C)w(AC)]=w(BC)S[w(BA¯C)w(BC)]

这对于所有命题A,B,C都成立。特别地,给定任意新命题D,当B¯=AD时上式当然也成立。此时,我们在上一篇博客《概率论沉思录:合情推理》中推导过下列结论:

AB¯=B¯,BA¯=A¯

这样,我们可以做如下代换:

w(AB¯C)=w(B¯C)=S[w(BC)],w(BA¯C)=w(A¯C)=S[w(AC)]

xw(AC),y=w(BC),则有w(AB¯C)=S(y), w(BA¯C)=S(x)。代入式(6)得到下列命题:

命题8

(10)xS[S(y)x]=yS[S(x)y],0S(y)x, 0x1

(关于这里的定义域,是因为S(y)=w(B¯C)=w(ADC)=w(AC)w(DAC),而w(AC)=x,且对任意命题D0w(DAC)1,故0S(y)x。注意,由于对称性,同样有0S(x)y, 0y1

这表明,为继续满足乘法规则,S(x)必须具有缩放属性。在y=1的特殊情况下,它变为

S[S(x)]=x

这表明S(x)是一个自反函数:S(x)=S1(x)(即反函数和原函数相同)。因此,有v=S(u)则必有u=S1(v)=S(v)。这体现了一个明显的事实,也即AA¯之间的关系是自反的,至于字母和带上横线的字母哪个表示原命题,哪个表示命题的否定,都无关紧要。我们在上一篇博客定义命题的否定时就注意到了这一点(虽然当时可能还不明显)。

事实上,我们有下列命题(详细证明过程请参见原书):

命题9 满足上述条件的S(且满足S(0)=1)的唯一解是

(11)S(x)=(1xm)1/m,0x1, 0<m<+

反过来,我们也可以验证式(11)是式(10)的解。式(11)是满足函数方程(10)和左边界条件S(0)=1的最一般函数。然后,我们会发现它自动满足右边界条件S(1)=0

由于对函数方程(10)的推导使用了B¯=AD的特殊选择,我们到目前为止只表明了式(11)是满足一般的一致性要求式(9)的必要条件。要检查其是否充分,将式(11)代入式(9),我们得到

wm(AC)wm(AB¯C)=wm(BC)wm(BA¯C)

该式可由乘法规则得到。因此,我们证明了式(11)S(x)在式(9)意义下的一致性的充要条件。

到目前为止,我们的结果可总结如下:逻辑积的结合性要求合情性x=AB的单调函数w(x)必须遵守乘法规则式(4)。而我们的结果式(11)指出,这个函数也必须遵守下列规则:

结论2 对于正数m,函数w(x)必须满足:

(12)wm(AB)+wm(A¯B)=1

(由xm+(1xm)1mm=1得到)

我们将其称之为加法规则(sum rule)

当然,乘法规则也可以写成

wm(ABC)=wm(ABC)wm(BC)=wm(BAC)wm(AC)

我们发现m的值实际上无关紧要,因为无论m取什么值都可以定义一个新函数

p(x)wm(x)

而如果w(x)01之间的连续单调递增函数,那么wm(x)必然也满足该条件。这样,我们的规则变为

1. 乘法规则

(13)p(ABC)=p(AC)p(BAC)=p(BC)p(ABC)

2. 加法规则

(14)p(AB)+p(A¯B)=1

其中p(x)是任意连续单调递增函数,且值域为0p(x)1

除了乘法规则和加法规则之外,是否需要更多的关系来得到一套完备的合情推理规则,以便确定任意逻辑函数f(A1,,An)的合情性呢?在乘法规则和加法规则中,我们已经得到了合取AB和否定A¯的合情性公式。而由于我们在上一篇博客《概率论沉思录:合情推理》中已经提到,合取和否定是运算的完备集合,可以从中构造出所有逻辑函数。因此,通过反复应用乘法规则和加法规则,我们可以得到A1,,An生成的布尔代数中任意命题的合情性。

为了证明这一点,我们首先寻求逻辑和A+B的公式。反复应用乘法规则和加法规则,我们可以得到

p(A+BC)=1p(A¯ B¯C)=1p(A¯C)p(B¯A¯C)=1p(A¯C)[1p(BA¯C)]=p(AC)+p(A¯BC)=p(AC)+p(BC)p(A¯|BC)=p(AC)+p(BC)[1p(ABC)]=p(AC)+p(BC)p(ABC)

最后,我们有

(15)p(A+BC)=p(AC)+p(BC)p(ABC)

我们将最后得到的这个式子称为广义加法规则(generalized sum rule)。显然,原始加法规则(14)是广义加法规则(15)B=A¯时的特例。

我们在上一篇博客中提到,除相互矛盾之外的任何逻辑函数都可以用析取范式(DNF)表示为基本合取式的逻辑和。现在,我们已知任何一个基本合取式{Qi,1i2n}n为命题数)的合情性都可以通过重复应用乘法规则确定,因此重复应用(15)将产生Qi的任意逻辑和的合情性。

于是,每当背景信息足以确定基本合取式的合情性时,我们的规则就足以确定A1,,An生成的布尔代数中每个命题的合情性。因此,正如合取和否定是演绎逻辑的一组完备运算集,上述乘法和加法的规则也是合情推理的一组完备规则集。

3 无差别原则(初始化数值)

到目前为止,我们得到的乘法规则和加法规则描述了不同命题直接合情性之间的关系,也即描述了机器人“大脑”内部运作的基本规则。然而,我们并没有说明合情性是怎么和我们的客观世界产生联系的,也即机器人是怎么根据背景信息对合情性进行初始化赋值的。为此,我们必须诉诸合情条件中尚未使用的“接口”条件(c):全同性。

在广义加法规则15的基础之上,逐步添加更多命题A3,A4,A5,等,用数学归纳法可以证明,如果我们有n两两互斥的命题A1,,An,那么上式可以推广为:

(16)p(A1++AmB)=i=1mp(AiB),1mn

接下来,我们假定命题A1,,An不仅是互斥的,而且是穷尽的(exhaustive),即背景信息决定了其中一个且仅一个必须为真,在这种情况下,我们有下列命题:

命题10m=n时,上述和式必须等于1:

(17)i=1np(AiB)=1

到目前为止,我们还不能确定每个数值p(AiB)。我们可能凭借直觉,直接做出p(AiB)=1n的论断。然而在这里,我们需要压制住所有直觉,从逻辑分析的角度去进行论证。

我们现考虑一个互斥且穷尽的命题集合:

{A1,A2,,An}

我们把它看做是n个贴有标签1,2,,n的盒子。现在,我们把盒子的标签进行任意的打乱,得到重新编号的盒子集合:

{A1,A2,,An}

我们设现在第贴上标签k的盒子Ak实际上对应的是原来的盒子Ai。由于本质上是同一个盒子(命题),那么从客观角度而言,我们规定对于机器人必须有:

p(AiB)=p(AkB),i=1,2,,n

上述方程我们称为变换方程(transformation equations),对于任何信息B都必须成立。

但是刚刚是从做为”上帝视角“的客观角度而言,对于机器人而言它并不知道盒子的标签是如何打乱的,也即它对于原始命题集合{A1,A2,,An}和打乱标签后的命题集合{A1,A2,,An}的知识状态是完全相同的。而我们的一致性合情条件(c)要求机器人在等同的知识状态中就要赋予相同的合情性,也就是说还必须得有:

p(AkB)=p(AkB),k=1,2,,n

我们称其为对称方程(symmetry equations)

如果你是物理壬的话对这个方程应该会很有直觉,可以把B理解为给定的哈密顿量,对命题AkAk的概率赋值可以理解为找对应的平衡态/基态的问题。在无任何自发对称性破缺的情况下(也就是满足合情条件(c):全同性),最后的平衡态也应该具有唯一性,于是自然就会得到我们这个结论。

联立变换方程和对称方程,我们有

p(AiB)=p(AkB)i=1,2,,n

这包括了n个等式,每个i都对应某个k

不过,以上只是一种特定的打乱方式,我们要求对于任意的标签打乱方式这些关系都必须要成立。一共有n!标签打乱方式,因此有n!个等价的问题。而对于给定的i,上式中的k实际上将遍历所有其它的所有n1个下标。因此,想满足上述的等式的话,唯一的可能性是所有的p(AiB)相等。再加上{A1,A2,,An}是穷尽的,式(17)必须成立,从而我们得到下列结论:

结论3 对命题集合{A1,A2,,An}的合情性进行初始化赋值的唯一的可能是

(18)p(AiB)=1n,1in

我们终于得到了一组合情性的确定数值!我们将这个结果称为无差别原则(principle of indifference)

于是,我们的机器人在内部的存储器电路中只需要存储pi的数值即可。接下来合情性xAB这个概念就可以退场了,我们不需要再使用它。我们可以完全通过量p来实现我们的合情推理理论,我们将其称为概率(probability)

概率p定义了可以测量合情程度的一种特定尺度。虽然所有可能的单调函数在原则上都可以很好地服务于此目的,但我们选择这个(满足无差别原则的)特定的函数不是以为它更准确,而是因为它更方便。这种情况类似于热力学中定标的情况。所有可能的经验温标t都是彼此的单调函数,我们之所以决定使用开尔文温标T,不是因为它比其它温标更准确,而是因为它更方便。热力学定理在这个温标下具有最简单的形式,比如我们熟知的dU=TdSPdV,dG=SdT+VdP等等中的T都是开尔文温标。

之前我们的加法规则:p(AC)+p(A¯C)=1和两个边界条件:p(AC)=1(若A为真)、p(AC)=0(若A为假)事实上已经完成了第一次定标,也即限制了p(AC)p(A¯C)的关系和各自的值域(即[0,1]的范围内)。第一次定标可以理解为,使每个人的合情性打分在打分区间上是一样的。但是,即使我们已经对p加以了限定,但p仍然是一个任意的函数(每个人都不同),因此我们还需要第二次定标,也就是我们这里的全同性规则:P(AiB)=1n。第二次定标使每个人的合情性打分从数值上来说都符合相同的标准。这样,我们就可以将每个人的主观感觉转换为统一的数值加以比较了。两次定标的直观理解可以参见下图(图中黑色和红色的曲线可以视为两个不同人的合情性打分/概率):

还可以马上从式(17)中导出符合我们直觉的另一个规则。考虑概率论中的传统”伯努利坛子“问题:坛子中的10个球具有相同的大小和重量,标号为{1,2,,10},其中的3个(标号为4,6,7)为黑球,另外7个是白球。我们摇动坛子并随机取一个球。式(10)中的背景信息B由这两句陈述组成。我们取出一个黑球的概率是多少?

定义命题:Aii1i10。由于这10种可能性都有相同的背景信息,所以式(18)适用,机器人为这10种可能性分配相同的概率值

p(AiB)=110,1i10

说“取出一个黑球”就是“取出的球标号为4、6或7”:

p(B)=p(A4+A6+A7B)

而这些都是互斥的命题(即它们表示互斥的事件),因此式(16)适用:

p(B)=p(A4)+p(A6)+p(A7)=310

而这正如直觉告诉我们的那样。更一般地,如果有N个这样的球,命题A被定义为在任意的M个球的子集上为真(0MN),在其补集上为假,我们有:

p(AB)=MN

这正是詹姆斯·伯努利(James Bernoulli)给出的概率的原始数学定义,它在接下来的150年中被大多数作者所使用。例如,拉普拉斯的巨著《分析概率论》[3]以这句话开头:

4 和定性属性的联系

最后,让我们看一下定量规则是如何与我们在上一篇博客《概率论沉思录:合情推理》中提到的定性三段论相关联的。首先,显而易见的是,在p(AB)0p(AB)1的极限情形下,加法规则(14)描述了亚里士多德逻辑的原始假设:若A为真,则A¯必定为假,等等。

事实上,所有这些逻辑都包括我们在上一篇博客中所提到的两种强三段论以及从它们推演出的所有内容。这两种强三段论即:

(19)AB   A_BAB   B_A

(现在使用蕴含标记来表示大前提)

它们有无穷无尽的推论。这里的大前提就是我们之前一直所说的背景信息(常识),我们用字母C来表示,即

CAB

那么,这两种三段论分别是要确定p(BAC)p(AB¯C),根据乘法规则(13)我们可以将它们表示为:

p(BAC)=p(ABC)p(AC),p(AB¯C)=p(AB¯C)p(B¯C)

接着,根据式(19)的大前提AB,我们有逻辑方程AB=A与变量关系A¯+B=1,AB¯=0(参见上一篇博客的结论)。于是我们有p(ABC)=p(AC)p(AB¯)=0,于是

p(BAC)=1,p(AB¯C)=0

这正是三段论式(19)所陈述的内容。因此,关系很简单:亚里士多德演绎逻辑是我们的合情推理规则在机器人对其结论越来越确信时的极限形式

除此之外,我们的规则也包含了演绎逻辑中没有的内容:我们在上一篇博客中所提到的弱三段论的定量形式。比如,对于第一种弱三段论:

(20)AB   B_A

就可以写作:

p(ABC)=p(BAC)p(AC)p(BC)

其中由于p(BAC)=1,而p(BC)1(概率的固有数值范围),所以

p(ABC)p(AC)

而这正和弱三段论(20)相吻合。

对于第2种三段论:

(21)AB   A_B

可以写作:

p(BA¯C)=p(BC)p(A¯BC)p(A¯C)

p(ABC)p(AC)得,p(A¯BC)p(A¯C),那么

p(BA¯C)p(BC)

这也和弱三段论(21)吻合。

最后,我们来看警察推理所使用的三段论(参见上一篇博客《概率论沉思录:合情推理》)。也即命题A为「男子是坏人」,命题B为「男子做出上述行为」,C为背景信息「A真则B更合情」(按警察的经验,好人几乎不可能有此行为,而坏人有此行为则更合理),则弱三段论定义如下:

(22)AB   B_A

它可以写作:

p(ABC)=p(AC)p(BAC)p(BC)

而跟背景信息C,我们有p(BAC)>p(BC),于是

p(ABC)>p(AC)

而这正如我们的弱三段论所述。

事实上,引入概率p之后我们得到的不止上述的定性描述,我们还可以定量地分析合情性具体变化了多少。我们在上一篇博客中的“思维计算机”一节曾提问“是什么决定了A的合情性是大幅增加到几乎确定的程度,还只是提升了可以忽略不计的一点点并使得数据B几乎无关紧要?”现在我们给出的答案是,因为p(BAC)1,所以只有当p(BC)非常小时,A的合情性才会大幅增加。也就是说,如果警察经常几乎没有看见路人这样做过,那么当他看见男子的行为(B)时,就几乎会肯定男子有罪(A)。此外,如果知道A为真只能使B的合情性有微不足道的增加,那么观察到B反过来也只能使A的合情性有几乎可以忽略不计的增加。

除了上述我们展示的几个经典的弱三段论之外,还有许多弱三段论都可以通过上述的合情推理定量规则来表示(参见Polya的著作[4]),感兴趣的童鞋可以去进一步延伸阅读。

5 评注

主观与客观

在我们发展的理论中,任何概率赋值都必然是“主观的”,因为它只描述了一种知识状态,而不是任何可以在物理实验中测量的东西(这里的知识状态是推理机器人的、或按照合情条件推理的其它人的)。与此同时,我们的接口条件(b)(c)又使得这些概率赋值是完全“客观的”,因为他们与不同用户的个性无关。它们是根据问题给出的陈述来描述(或者说编码)信息的一种手段,与你我对于所涉及命题可能拥有的个人感受(希望、恐惧、价值判断等)无关。这种意义上的“客观性”正是成为受人敬重的科学推断理论所需要的。

维恩图
有读者可能会问:“我们为什么不用维恩图来解释广义加法规则p(A+BC)=p(AC)+p(BC)p(ABC)呢?这能它的含义更加清晰。”我们认为,维恩图的使用是存在局限性的,因为它要求事件AB所对应的区域面积是可加的,也就说它要求事件AB可以被分解为一些互斥子命题的析取。我们想象将AB一直细分为图中的各个点,也即最终的“基本”命题ωi(当然,物理学家会拒绝称它们为“原子”命题(#^.^#))。

然而,我们推理的大多数命题,如A:「今天会下雨」、B:「屋顶会漏水」只是事实性的描述性语句,它们在具体的问题情景下不一定能分解成更多的基本命题。当然,你也可以引入一些无关紧要的东西来强制分解。例如,即使上面定义的B与企鹅无关,我们也可以将其分解为析取B=BC1+BC2+BC3++BCN,其中Ck表示「南极洲的企鹅数量是k」。通过使N足够大,我们肯定能得到一个有效的布尔代数陈述,但这是无事找事,且无法帮助我们推断屋顶是否会漏水的命题。

柯尔莫哥洛夫公理

1933年,柯尔莫哥洛夫提出了一种用集合论和测度论的语言表达概率论的方法,对我们前面提到的维恩图所暗示的内容进行了形式化和公理化。事实上,在柯尔莫哥洛夫系统中最初似乎是由他随意提出的(柯尔莫哥洛夫也因此遭到批评)的概率测度的四个公理,都可以作为满足我们一致性条件的结论被推导出来。因此,我们将发现我们在许多技术问题上支持柯尔莫哥洛夫,反对他的批评者。

然而,我们的概率系统在概念上与柯尔莫哥洛夫的系统不同,因为我们不用集合来解释命题,而是将概率分布解释为不完全信息的载体。这导致的部分结果就是,我们的系统拥有柯尔莫哥洛夫系统中根本没有的分析资源,这使我们能够阐述和解决更多问题(在后面的章节中将进行讨论)。

频率派和贝叶斯派

这一小节是我自己加的,意在将贝叶斯学派(本书的视角)和频率学派做个对比,方便之后的学习:

频率学派 贝叶斯学派
历史沿革 初期思想可追溯到19实际,而在20世纪初得到了系统的发展。这一时期的代表人物包括罗纳德·A·费希尔(Ronald A. Fisher)耶尔齐·尼曼(Jerzy Neyman)。他们推崇基于重复试验来获取参数的固定值,并基于此进行统计推断。 起源可追溯到18世纪的托马斯·贝叶斯(Thomas Bayes)皮埃尔·西蒙·拉普拉斯(Pierre Simon Laplace)。他们通过结合先验知识和观测数据更新 对未知参数的信念
数学根基 柯尔莫哥洛夫(Kolmogorov)公理化体系 5条合情条件
  • 依赖布尔代数
尝试描述/建模的内容 样本空间中的事件本身 作为扩展的逻辑,人类对事件的认知/知识/信念。
世界观简述
  • 上帝视角:事件本身是随机的/世界带有某种随机性
  • 所谓概率是事件本身的性质
  • 随着独立重复实验的进行,人们对事件概率值的估计会越来越准确,但是概率值本身是不变的。
  • 观察者视角:人类对世界的认知是不完备的
  • 所谓概率描述了人类对事件的感觉/认知/知识/信念,即观察者对事件的知识状态
  • 随着人获取更多信息,概率值会不断更新和改变
  • *(对于)万事万物(的认知)皆分布
概率的定义 统计定义: 独立重复试验中发生的频率趋于极限p古典概率: 实验中有N个等可能结果,事件E包含了其中M个结果,则概率P(E)=M/N 一个实数,代表人类对事件的感觉/认知/知识/信念,经过了定标和归一化,不同人之间可以相互比较。
对参数估计过程的描述
  • 参数存在一个固定的真值,数据是随机和变动的
  • 使用点估计值(一个数值)+置信区间(confidence interval) 来描述参数估计的结果。形式为 +
  • 95%置信区间:多次重复试验,进行点估计并计算置信区间,其中的95%会包含(套住)真值(真值不变区间变)
  • 数据是固定的,而待估计的参数是未知和变动的
  • 使用后验分布(一个函数) 来描述参数估计的结果。但是也可以使用可信区间(credible interval) 来简化输出,例如://+
  • 95%可信区间:参数落在此区间的概率为95%(区间不变真值变)
处理问题的额外工具
  • 需要各种特定工具(ad-hoc devices)
  • 只需要讨论概率,不需要其它工具

    参考

    • [1] Jaynes E T. Probability theory: The logic of science[M]. Cambridge university press, 2003.
    • [2] 杰恩斯. 廖海仁译. 概率论沉思录[M]. 人民邮电出版社, 2024.
    • [3] Laplace P S. Théorie analytique des probabilités[M]. Courcier, 1820.
    • [4] Polya G. Mathematics and Plausible Reasoning: Patterns of plausible inference[M]. Princeton University Press, 1990.
    posted @   orion-orion  阅读(305)  评论(0编辑  收藏  举报
    相关博文:
    阅读排行:
    · 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
    · 推荐几款开源且免费的 .NET MAUI 组件库
    · 实操Deepseek接入个人知识库
    · 易语言 —— 开山篇
    · Trae初体验
    历史上的今天:
    2021-10-17 数值优化:一阶和二阶优化算法(Pytorch实现)
    点击右上角即可分享
    微信分享提示