概率论沉思录:定量规则
托福这劳什子终于画上了句号,上个月完全有20天的时间属于是白白浪费掉了(# ̄~ ̄#),接下来我会继续更新概率论沉思录专栏并把之前的拖更补上(还得兼顾学日语,给自己加油!)。
导言
概率论只不过是把常识用数学公式表达了出来。
——拉普拉斯(Laplace, 1819)
我们在上一篇博客《概率论沉思录:合情推理》中介绍了合情推理[1][2]中所要满足的合情条件,即:
其中,第点的一致性条件又具体包含下列三个含义:
上述条件都是定性的。在这一篇博客中我们将看到,上述条件皆不是空穴来风,而且不多不少刚刚好。一旦我们导出了满足上述合情条件的合情推理定量规则,我们就会发现,我们实际上就得到了概率的原始定义(乘法规则 + 加法规则 + 无差别原则)。
其中,条件是机器人大脑的“结构性”条件,决定了推理机器人大脑的内部运作规则(这里的“大脑”可以指电路 / 神经网络 / ...),导出概率的乘法规则(product rule)
和加法规则(sum rule)
(是任意连续单调递增函数,值域为)
而条件是“接口”条件,进一步建立了推理机器人与客观世界的联系。其中,导出概率的无差别原则(principle of indifference)
(为互斥且穷尽的命题集合,即背景信息决定了其中一个且仅一个必须为真)
接下来我们来看概率的乘法规则、加法规则和无差别原则究竟是怎样由合情条件导出的。
1 乘法规则
我们首先寻找将逻辑积的合情性和、的合情性相关联的规则,也即找到的表达式。我们将机器人判定为真的过程分解为对和进行分步决策的过程,也即:
- 判定为真;
- 接受为真,判定真。
(先判定为真的情况同理。我们将对应于每个步骤的合情性添加在了末尾)
我们用自然语言来解释一下。要想使命题为真,命题必为真(根据逻辑积的定义),因此我们需要合情性。接着,我们需要进一步判定为真,此时我们需要合情性而非。这是因为,如果机器人知道为假,则无论的合情性如何(即),都肯定为假。而一旦机器人知道,它就不再需要知道了(这不会增加什么关于的新信息)。
此外,机器人并不需要知道和。因为在不知道信息的情况下,或可能具有的合情性与机器人知道为真时的判断无关。例如,如果机器人已经知道地球是圆的,那么在对今天的宇宙学问题做判断时,就不需要考虑如果不知道地球是圆的,它可能具有的观点(即考虑额外的可能性)。
(当然,由于逻辑积是可交换的,即,所以我们可在上述语句中交换和,就得到了()。机器人可以以任意一种方式获得相同的的值,即一致性条件:非路径依赖性)。
更进一步,我们有以下命题:
命题1 是和的某个函数,即:
(同样也应为和的某个函数)
如果对上述推理有疑问的话,不妨考虑下其它的替代方案,比如。但这种形式不能满足定性合情条件:类直觉条件,也即违反人类常识。因为给定,可能很合情,也可能很合情,但有可能很不合情。比如一个人左眼是蓝色的很合情,右眼是棕色的也很合情,但既有蓝色左眼又有棕色右眼就很不合情了。
注 关于这一点,已经被概率论/因果推断“剧透”过的同学应该就知道,左眼是蓝色与右眼是棕色这两个命题在因果上确实是独立的,但是在概率上仍然是不独立的。这是因为它们都有控制眼睛颜色的遗传基因来做为共变因(所谓混淆因子,confounder),以构成“真则假”的逻辑相关性(而非物理因果性)。
接下来我们来看看为满足我们的合情条件,结合函数需要具有怎样的性质(下面不妨设, )。
我们先来考虑定性需求中的 :类直觉条件。给定先验信息的变化,使变得更合情,但不变:
常识要求只能变得更合情,而不能相反:
等号当且仅当对应于不可能时成立。这要求是关于的单调递增函数且当且仅当不可能时函数关于偏导数为0。同理,还需要是关于的单调递增函数且当且仅当不可能时函数关于偏导数为0。此外,函数还必须是连续的,否则式右侧的一个合情性值的小幅增大也可能导致的大幅增大。
综上所述,我们有以下命题:
命题2 必须是和的连续单调递增函数。如果假设它是可微的(虽然不必要,但可简化我们的推导),我们有
其中第一个式子等号当且仅当表示不可能时成立。第二个式子等号当且仅当表示不可能时成立(我们这里用表示关于的第个参数的微分)。
接下来,我们施加“结构一致性”合情条件:非路径依赖性。比如,对于合情性,因为由布尔代数的结合性有,我们需要满足不管根据何种顺序计算合情性,都会得到相同的结果。比如,一种可能的顺序是先认为是一个命题,然后重复两次应用式子:
另外一种可能的顺序是把当成一个命题:
这两个顺序所导出的合情性结果必须相等。此时,我们有下列命题:
命题3 机器人进行一致性推理的必要条件是,函数必须满足方程
阿贝尔最早在书中使用了这个方程,奥采尔将其称之为“结合方程”(The Associativity Equation)。
根据上述函数方程,最终我们可以证明下列结论(证明详情参见原书,书中假定了的可微性):
结论1 如果要满足函数方程,那么我们要寻找的关系就必须采取如下函数形式:
我们将其称之为乘法规则(product rule)。这里为满足形式
的连续单调正值函数(到目前为止,它可以递增且可以递减,且取值任意),其中积分没有下限,为任意函数。
式是要达成一致性合情条件:非路径依赖性而必须要满足的必要条件。用数学归纳法也可证明,式对任意数量的命题也都适用(如)。
事实上,除了连续单调递减之外,合情条件:类直觉条件对函数施加了额外的条件。例如在式的第一种形式中,我们现在假设当给定时是确定的,那么在由的知识产生的“逻辑环境”中,命题(为真当且仅当为真)根据我们在上一章中讨论的最原始的公理,相同真值的命题必定有相同的合情程度,即
除此之外,我们根据常识还需要有
因为给定时已经确定了(即蕴含),那么当给出任意与不矛盾的其它信息时,仍然是确定的。
注 已经被概率论“剧透”过的同学应该就知道,给定时是确定的给定时,和条件独立。
综上所述,式变为
无论对机器人多么合情或不合情,它都必须成立。所以我们有以下命题:
命题4 函数还必须要具有如下性质:
反过来,假设当给定时是不可能的(即蕴含),此时式变为
无论具有怎样的合情性,这个等式都必须成立。只有两个可能的值满足这个条件:或(被排除了,否则根据连续性,必须能够取负值,这与上式矛盾)。因此,我们有以下命题:
命题5 函数满足:
综上所述,除了必须满足是连续单调正值函数外,根据合情条件:类直觉条件,它还需要满足下列要求:如果是增函数,则范围是从(不可能)到(确定);如果是减函数,它的范围必须是从(不可能)到(确定)(到目前为止,我们的条件还没说明它如何在这些范围内变化)。
这两种可能的表示方式在内容上没什么不同。给定符合上述标准并用表示不可能的任意单减函数,我们同样可以定义同样符合上述标准并用表示不可能的单增函数。因此,不失一般性,我们现在选择第一种形式。于是,我们有下列命题:
命题6 为满足下列要求的函数:
不过到目前为止,除了上述条件之外,还是具有任意性。
2 加法规则
接下来我们来进一步对加以限制。由于我们现在考虑的命题属于亚里士多德逻辑类型,他们必须是非真即假的,其逻辑积总是假的(无矛盾律),逻辑和总是真的(排中律)。这也就是说,为假的合情性必须在某种程度上取决于它为真的合情性。如果我们定义和,则这意味着必定存在某种函数关系
显然,如果我们要满足合情条件:类直觉条件,则必有下列命题:
命题7 是的连续单调递减函数,并且有极值
但是进一步我们会发现,它不能是具有这些属性的任意函数,因为它还必须与和的乘法规则一致:
将的关系代入上式得
我们再次应用交换性:关于和对称,因此一致性:非路径依赖性要求
这对于所有命题都成立。特别地,给定任意新命题,当时上式当然也成立。此时,我们在上一篇博客《概率论沉思录:合情推理》中推导过下列结论:
这样,我们可以做如下代换:
令,则有, 。代入式得到下列命题:
命题8
(关于这里的定义域,是因为,而,且对任意命题有,故。注意,由于对称性,同样有)
这表明,为继续满足乘法规则,必须具有缩放属性。在的特殊情况下,它变为
这表明是一个自反函数:(即反函数和原函数相同)。因此,有则必有。这体现了一个明显的事实,也即和之间的关系是自反的,至于字母和带上横线的字母哪个表示原命题,哪个表示命题的否定,都无关紧要。我们在上一篇博客定义命题的否定时就注意到了这一点(虽然当时可能还不明显)。
事实上,我们有下列命题(详细证明过程请参见原书):
命题9 满足上述条件的(且满足)的唯一解是
反过来,我们也可以验证式是式的解。式是满足函数方程和左边界条件的最一般函数。然后,我们会发现它自动满足右边界条件。
由于对函数方程的推导使用了的特殊选择,我们到目前为止只表明了式是满足一般的一致性要求式的必要条件。要检查其是否充分,将式代入式,我们得到
该式可由乘法规则得到。因此,我们证明了式是在式意义下的一致性的充要条件。
到目前为止,我们的结果可总结如下:逻辑积的结合性要求合情性的单调函数必须遵守乘法规则式。而我们的结果式指出,这个函数也必须遵守下列规则:
结论2 对于正数,函数必须满足:
(由得到)
我们将其称之为加法规则(sum rule)。
当然,乘法规则也可以写成
我们发现的值实际上无关紧要,因为无论取什么值都可以定义一个新函数
而如果为到之间的连续单调递增函数,那么必然也满足该条件。这样,我们的规则变为
1. 乘法规则
2. 加法规则
其中是任意连续单调递增函数,且值域为。
除了乘法规则和加法规则之外,是否需要更多的关系来得到一套完备的合情推理规则,以便确定任意逻辑函数的合情性呢?在乘法规则和加法规则中,我们已经得到了合取和否定的合情性公式。而由于我们在上一篇博客《概率论沉思录:合情推理》中已经提到,合取和否定是运算的完备集合,可以从中构造出所有逻辑函数。因此,通过反复应用乘法规则和加法规则,我们可以得到生成的布尔代数中任意命题的合情性。
为了证明这一点,我们首先寻求逻辑和的公式。反复应用乘法规则和加法规则,我们可以得到
最后,我们有
我们将最后得到的这个式子称为广义加法规则(generalized sum rule)。显然,原始加法规则是广义加法规则在时的特例。
我们在上一篇博客中提到,除相互矛盾之外的任何逻辑函数都可以用析取范式(DNF)表示为基本合取式的逻辑和。现在,我们已知任何一个基本合取式(为命题数)的合情性都可以通过重复应用乘法规则确定,因此重复应用将产生的任意逻辑和的合情性。
于是,每当背景信息足以确定基本合取式的合情性时,我们的规则就足以确定生成的布尔代数中每个命题的合情性。因此,正如合取和否定是演绎逻辑的一组完备运算集,上述乘法和加法的规则也是合情推理的一组完备规则集。
3 无差别原则(初始化数值)
到目前为止,我们得到的乘法规则和加法规则描述了不同命题直接合情性之间的关系,也即描述了机器人“大脑”内部运作的基本规则。然而,我们并没有说明合情性是怎么和我们的客观世界产生联系的,也即机器人是怎么根据背景信息对合情性进行初始化赋值的。为此,我们必须诉诸合情条件中尚未使用的“接口”条件:全同性。
在广义加法规则的基础之上,逐步添加更多命题等,用数学归纳法可以证明,如果我们有两两互斥的命题,那么上式可以推广为:
接下来,我们假定命题不仅是互斥的,而且是穷尽的(exhaustive),即背景信息决定了其中一个且仅一个必须为真,在这种情况下,我们有下列命题:
命题10 当时,上述和式必须等于1:
到目前为止,我们还不能确定每个数值。我们可能凭借直觉,直接做出的论断。然而在这里,我们需要压制住所有直觉,从逻辑分析的角度去进行论证。
我们现考虑一个互斥且穷尽的命题集合:
我们把它看做是个贴有标签的盒子。现在,我们把盒子的标签进行任意的打乱,得到重新编号的盒子集合:
我们设现在第贴上标签的盒子实际上对应的是原来的盒子。由于本质上是同一个盒子(命题),那么从客观角度而言,我们规定对于机器人必须有:
上述方程我们称为变换方程(transformation equations),对于任何信息都必须成立。
但是刚刚是从做为”上帝视角“的客观角度而言,对于机器人而言它并不知道盒子的标签是如何打乱的,也即它对于原始命题集合和打乱标签后的命题集合的知识状态是完全相同的。而我们的一致性合情条件要求机器人在等同的知识状态中就要赋予相同的合情性,也就是说还必须得有:
我们称其为对称方程(symmetry equations)。
注 如果你是物理壬的话对这个方程应该会很有直觉,可以把理解为给定的哈密顿量,对命题、的概率赋值可以理解为找对应的平衡态/基态的问题。在无任何自发对称性破缺的情况下(也就是满足合情条件:全同性),最后的平衡态也应该具有唯一性,于是自然就会得到我们这个结论。
联立变换方程和对称方程,我们有
这包括了个等式,每个都对应某个。
不过,以上只是一种特定的打乱方式,我们要求对于任意的标签打乱方式这些关系都必须要成立。一共有标签打乱方式,因此有个等价的问题。而对于给定的,上式中的实际上将遍历所有其它的所有个下标。因此,想满足上述的等式的话,唯一的可能性是所有的相等。再加上是穷尽的,式必须成立,从而我们得到下列结论:
结论3 对命题集合的合情性进行初始化赋值的唯一的可能是
我们终于得到了一组合情性的确定数值!我们将这个结果称为无差别原则(principle of indifference)。
于是,我们的机器人在内部的存储器电路中只需要存储的数值即可。接下来合情性这个概念就可以退场了,我们不需要再使用它。我们可以完全通过量来实现我们的合情推理理论,我们将其称为概率(probability)。
概率定义了可以测量合情程度的一种特定尺度。虽然所有可能的单调函数在原则上都可以很好地服务于此目的,但我们选择这个(满足无差别原则的)特定的函数不是以为它更准确,而是因为它更方便。这种情况类似于热力学中定标的情况。所有可能的经验温标都是彼此的单调函数,我们之所以决定使用开尔文温标,不是因为它比其它温标更准确,而是因为它更方便。热力学定理在这个温标下具有最简单的形式,比如我们熟知的等等中的都是开尔文温标。
注 之前我们的加法规则:和两个边界条件:(若为真)、(若为假)事实上已经完成了第一次定标,也即限制了和的关系和各自的值域(即的范围内)。第一次定标可以理解为,使每个人的合情性打分在打分区间上是一样的。但是,即使我们已经对加以了限定,但仍然是一个任意的函数(每个人都不同),因此我们还需要第二次定标,也就是我们这里的全同性规则:。第二次定标使每个人的合情性打分从数值上来说都符合相同的标准。这样,我们就可以将每个人的主观感觉转换为统一的数值加以比较了。两次定标的直观理解可以参见下图(图中黑色和红色的曲线可以视为两个不同人的合情性打分/概率):

还可以马上从式中导出符合我们直觉的另一个规则。考虑概率论中的传统”伯努利坛子“问题:坛子中的10个球具有相同的大小和重量,标号为,其中的3个(标号为)为黑球,另外7个是白球。我们摇动坛子并随机取一个球。式中的背景信息由这两句陈述组成。我们取出一个黑球的概率是多少?
定义命题:。由于这10种可能性都有相同的背景信息,所以式适用,机器人为这10种可能性分配相同的概率值
说“取出一个黑球”就是“取出的球标号为4、6或7”:
而这些都是互斥的命题(即它们表示互斥的事件),因此式适用:
而这正如直觉告诉我们的那样。更一般地,如果有个这样的球,命题被定义为在任意的个球的子集上为真(),在其补集上为假,我们有:
这正是詹姆斯·伯努利(James Bernoulli)给出的概率的原始数学定义,它在接下来的150年中被大多数作者所使用。例如,拉普拉斯的巨著《分析概率论》[3]以这句话开头:
4 和定性属性的联系
最后,让我们看一下定量规则是如何与我们在上一篇博客《概率论沉思录:合情推理》中提到的定性三段论相关联的。首先,显而易见的是,在或的极限情形下,加法规则描述了亚里士多德逻辑的原始假设:若为真,则必定为假,等等。
事实上,所有这些逻辑都包括我们在上一篇博客中所提到的两种强三段论以及从它们推演出的所有内容。这两种强三段论即:
(现在使用蕴含标记来表示大前提)
它们有无穷无尽的推论。这里的大前提就是我们之前一直所说的背景信息(常识),我们用字母来表示,即
那么,这两种三段论分别是要确定和,根据乘法规则我们可以将它们表示为:
接着,根据式的大前提,我们有逻辑方程与变量关系(参见上一篇博客的结论)。于是我们有;,于是
这正是三段论式所陈述的内容。因此,关系很简单:亚里士多德演绎逻辑是我们的合情推理规则在机器人对其结论越来越确信时的极限形式。
除此之外,我们的规则也包含了演绎逻辑中没有的内容:我们在上一篇博客中所提到的弱三段论的定量形式。比如,对于第一种弱三段论:
就可以写作:
其中由于,而(概率的固有数值范围),所以
而这正和弱三段论相吻合。
对于第2种三段论:
可以写作:
由得,,那么
这也和弱三段论吻合。
最后,我们来看警察推理所使用的三段论(参见上一篇博客《概率论沉思录:合情推理》)。也即命题为「男子是坏人」,命题为「男子做出上述行为」,为背景信息「真则更合情」(按警察的经验,好人几乎不可能有此行为,而坏人有此行为则更合理),则弱三段论定义如下:
它可以写作:
而跟背景信息,我们有,于是
而这正如我们的弱三段论所述。
事实上,引入概率之后我们得到的不止上述的定性描述,我们还可以定量地分析合情性具体变化了多少。我们在上一篇博客中的“思维计算机”一节曾提问“是什么决定了的合情性是大幅增加到几乎确定的程度,还只是提升了可以忽略不计的一点点并使得数据几乎无关紧要?”现在我们给出的答案是,因为,所以只有当非常小时,的合情性才会大幅增加。也就是说,如果警察经常几乎没有看见路人这样做过,那么当他看见男子的行为()时,就几乎会肯定男子有罪()。此外,如果知道为真只能使的合情性有微不足道的增加,那么观察到反过来也只能使的合情性有几乎可以忽略不计的增加。
除了上述我们展示的几个经典的弱三段论之外,还有许多弱三段论都可以通过上述的合情推理定量规则来表示(参见Polya的著作[4]),感兴趣的童鞋可以去进一步延伸阅读。
5 评注
主观与客观
在我们发展的理论中,任何概率赋值都必然是“主观的”,因为它只描述了一种知识状态,而不是任何可以在物理实验中测量的东西(这里的知识状态是推理机器人的、或按照合情条件推理的其它人的)。与此同时,我们的接口条件又使得这些概率赋值是完全“客观的”,因为他们与不同用户的个性无关。它们是根据问题给出的陈述来描述(或者说编码)信息的一种手段,与你我对于所涉及命题可能拥有的个人感受(希望、恐惧、价值判断等)无关。这种意义上的“客观性”正是成为受人敬重的科学推断理论所需要的。
维恩图
有读者可能会问:“我们为什么不用维恩图来解释广义加法规则呢?这能它的含义更加清晰。”我们认为,维恩图的使用是存在局限性的,因为它要求事件和所对应的区域面积是可加的,也就说它要求事件、可以被分解为一些互斥子命题的析取。我们想象将、一直细分为图中的各个点,也即最终的“基本”命题(当然,物理学家会拒绝称它们为“原子”命题(#^.^#))。
然而,我们推理的大多数命题,如:「今天会下雨」、:「屋顶会漏水」只是事实性的描述性语句,它们在具体的问题情景下不一定能分解成更多的基本命题。当然,你也可以引入一些无关紧要的东西来强制分解。例如,即使上面定义的与企鹅无关,我们也可以将其分解为析取,其中表示「南极洲的企鹅数量是」。通过使足够大,我们肯定能得到一个有效的布尔代数陈述,但这是无事找事,且无法帮助我们推断屋顶是否会漏水的命题。
柯尔莫哥洛夫公理
1933年,柯尔莫哥洛夫提出了一种用集合论和测度论的语言表达概率论的方法,对我们前面提到的维恩图所暗示的内容进行了形式化和公理化。事实上,在柯尔莫哥洛夫系统中最初似乎是由他随意提出的(柯尔莫哥洛夫也因此遭到批评)的概率测度的四个公理,都可以作为满足我们一致性条件的结论被推导出来。因此,我们将发现我们在许多技术问题上支持柯尔莫哥洛夫,反对他的批评者。
然而,我们的概率系统在概念上与柯尔莫哥洛夫的系统不同,因为我们不用集合来解释命题,而是将概率分布解释为不完全信息的载体。这导致的部分结果就是,我们的系统拥有柯尔莫哥洛夫系统中根本没有的分析资源,这使我们能够阐述和解决更多问题(在后面的章节中将进行讨论)。
频率派和贝叶斯派
这一小节是我自己加的,意在将贝叶斯学派(本书的视角)和频率学派做个对比,方便之后的学习:
频率学派 | 贝叶斯学派 | |
---|---|---|
历史沿革 | 初期思想可追溯到19实际,而在20世纪初得到了系统的发展。这一时期的代表人物包括罗纳德·A·费希尔(Ronald A. Fisher) 和耶尔齐·尼曼(Jerzy Neyman)。他们推崇基于重复试验来获取参数的固定值,并基于此进行统计推断。 | 起源可追溯到18世纪的托马斯·贝叶斯(Thomas Bayes) 和 皮埃尔·西蒙·拉普拉斯(Pierre Simon Laplace)。他们通过结合先验知识和观测数据 来 更新 对未知参数的信念。 |
数学根基 | 柯尔莫哥洛夫(Kolmogorov)公理化体系 | 5条合情条件
|
尝试描述/建模的内容 | 样本空间中的事件本身 | 作为扩展的逻辑,人类对事件的认知/知识/信念。 |
世界观简述 |
|
|
概率的定义 | 统计定义: 独立重复试验中发生的频率趋于极限;古典概率: 实验中有个等可能结果,事件包含了其中个结果,则概率 | 一个实数,代表人类对事件的感觉/认知/知识/信念,经过了定标和归一化,不同人之间可以相互比较。 |
对参数估计过程的描述 |
|
|
处理问题的额外工具 | 只需要讨论概率,不需要其它工具 |
参考
- [1] Jaynes E T. Probability theory: The logic of science[M]. Cambridge university press, 2003.
- [2] 杰恩斯. 廖海仁译. 概率论沉思录[M]. 人民邮电出版社, 2024.
- [3] Laplace P S. Théorie analytique des probabilités[M]. Courcier, 1820.
- [4] Polya G. Mathematics and Plausible Reasoning: Patterns of plausible inference[M]. Princeton University Press, 1990.
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 推荐几款开源且免费的 .NET MAUI 组件库
· 实操Deepseek接入个人知识库
· 易语言 —— 开山篇
· Trae初体验
2021-10-17 数值优化:一阶和二阶优化算法(Pytorch实现)