概率论沉思录：定量规则

托福这劳什子终于画上了句号，上个月完全有20天的时间属于是白白浪费掉了(＃￣～￣＃)，接下来我会继续更新概率论沉思录专栏并把之前的拖更补上（还得兼顾学日语，给自己加油！）。

导言

概率论只不过是把常识用数学公式表达了出来。

——拉普拉斯（Laplace, 1819）

我们在上一篇博客《概率论沉思录：合情推理》中介绍了合情推理^[1][2]中所要满足的合情条件，即：

\[\begin{aligned} (Ⅰ)& \space 用实数表示合情程度（数值化条件）。\\ (Ⅱ)& \space 定性地与常识相符（类直觉条件）。\\ (Ⅲ)& \space 具有一致性（一致性条件）。 \end{aligned} \]

其中，第\((Ⅲ)\)点的一致性条件又具体包含下列三个含义：

\[\begin{aligned} & (Ⅲ\text{a}) \space 如果可通过多种方式推出结论，那么每种方式都须给出相同结果（非路径依赖性）。\\ & (Ⅲ\text{b}) \space 机器人总是考虑与问题有关的所有证据，而不会随意忽略信息（非意识形态性）。\\ & (Ⅲ\text{c}) \space 机器人总是通过分配相同的合情性来表示相同的知识状态（全同性）。 \end{aligned} \]

上述条件都是定性的。在这一篇博客中我们将看到，上述条件皆不是空穴来风，而且不多不少刚刚好。一旦我们导出了满足上述合情条件的合情推理定量规则，我们就会发现，我们实际上就得到了概率的原始定义（乘法规则 + 加法规则 + 无差别原则）。

其中，条件\((Ⅰ)(Ⅱ)(Ⅲ\text{a})\)是机器人大脑的“结构性”条件，决定了推理机器人大脑的内部运作规则（这里的“大脑”可以指电路 / 神经网络 / ...），导出概率的乘法规则（product rule）

\[p(AB\mid C) = p(A\mid C)p(B\mid AC)=p(B\mid C)p(A\mid BC) \]

和加法规则（sum rule）

\[p(A\mid B) + p(\bar{A}\mid B) = 1 \]

（\(p(x)\)是任意连续单调递增函数，值域为\(0\leqslant p(x) \leqslant 1\)）

而条件\((Ⅲ\text{b})(Ⅲ\text{c})\)是“接口”条件，进一步建立了推理机器人与客观世界的联系。其中，\((Ⅲ\text{c})\)导出概率的无差别原则（principle of indifference）

\[p(A_i\mid B) = \frac{1}{n}, \quad 1 \leqslant i \leqslant n \]

（\(\{A_1, \cdots, A_n\}\)为互斥且穷尽的命题集合，即背景信息\(B\)决定了其中一个且仅一个必须为真）

接下来我们来看概率的乘法规则、加法规则和无差别原则究竟是怎样由合情条件导出的。

1 乘法规则

我们首先寻找将逻辑积\(AB\)的合情性和\(A\)、\(B\)的合情性相关联的规则，也即找到\(AB\mid C\)的表达式。我们将机器人判定\(AB\)为真的过程分解为对\(A\)和\(B\)进行分步决策的过程，也即：

判定\(B\)为真；
\(B\mid C\)
接受\(B\)为真，判定\(A\)真。
\(A\mid BC\)

（先判定\(A\)为真的情况同理。我们将对应于每个步骤的合情性添加在了末尾）

我们用自然语言来解释一下。要想使命题\(AB\)为真，命题\(B\)必为真（根据逻辑积的定义），因此我们需要合情性\(B\mid C\)。接着，我们需要进一步判定\(A\)为真，此时我们需要合情性\(A\mid BC\)而非\(A\mid C\)。这是因为，如果机器人知道\(B\)为假，则无论\(A\)的合情性如何（即\(A\mid \bar{B}C\)），\(AB\)都肯定为假。而一旦机器人知道\(A\mid BC\)，它就不再需要知道\(A\mid C\)了（这不会增加什么关于\(AB\)的新信息）。

此外，机器人并不需要知道\(A\mid B\)和\(B\mid A\)。因为在不知道信息\(C\)的情况下，\(A\)或\(B\)可能具有的合情性与机器人知道\(C\)为真时的判断无关。例如，如果机器人已经知道地球是圆的，那么在对今天的宇宙学问题做判断时，就不需要考虑如果不知道地球是圆的，它可能具有的观点（即考虑额外的可能性）。

（当然，由于逻辑积是可交换的，即\(AB=BA\)，所以我们可在上述语句中交换\(A\)和\(B\)，就得到了\(BA\mid C\)（\(=AB\mid C\)）。机器人可以以任意一种方式获得相同的\(AB\mid C\)的值，即一致性条件\((Ⅲ\text{a})\)：非路径依赖性）。

更进一步，我们有以下命题：

命题1 \(AB\mid C\)是\(B \mid C\)和\(A \mid BC\)的某个函数，即：

\[AB \mid C = F[(B \mid C), (A\mid BC)]\tag{1} \]

（同样也应为\(A\mid C\)和\(B\mid AC\)的某个函数）

如果对上述推理有疑问的话，不妨考虑下其它的替代方案，比如\(AB\mid C=F[(B \mid C), (A\mid C)]\)。但这种形式不能满足定性合情条件\((Ⅱ)\)：类直觉条件，也即违反人类常识。因为给定\(C\)，\(A\)可能很合情，\(B\)也可能很合情，但\(AB\)有可能很不合情。比如一个人左眼是蓝色的很合情，右眼是棕色的也很合情，但既有蓝色左眼又有棕色右眼就很不合情了。

注关于这一点，已经被概率论/因果推断“剧透”过的同学应该就知道，左眼是蓝色与右眼是棕色这两个命题在因果上确实是独立的，但是在概率上仍然是不独立的。这是因为它们都有控制眼睛颜色的遗传基因来做为共变因（所谓混淆因子，confounder），以构成“\(A\)真则\(B\)假”的逻辑相关性（而非物理因果性）。

接下来我们来看看为满足我们的合情条件，结合函数\(F(x, y)\)需要具有怎样的性质（下面不妨设\(x=(B\mid C)\), \(y=(A\mid BC)\)）。

我们先来考虑定性需求中的 \((Ⅱ)\)：类直觉条件。给定先验信息的变化\(C\rightarrow C^{\prime}\)，使\(B\)变得更合情，但\(A\)不变：

\[B\mid C^{\prime} > B \mid C, \\ A\mid BC^{\prime} = A\mid BC \]

常识要求\(AB\)只能变得更合情，而不能相反：

\[AB \mid C^{\prime} \geqslant AB \mid C \]

等号当且仅当\(A\mid BC\)对应于不可能时成立。这要求\(F(x, y)\)是关于\(x\)的单调递增函数且当且仅当\(y\)不可能时函数关于\(x\)偏导数为0。同理，\(F(x, y)\)还需要是关于\(y\)的单调递增函数且当且仅当\(x\)不可能时函数关于\(y\)偏导数为0。此外，函数\(F(x, y)\)还必须是连续的，否则\((1)\)式右侧的一个合情性值的小幅增大也可能导致\(AB\mid C\)的大幅增大。

综上所述，我们有以下命题：

命题2 \(F(x, y)\)必须是\(x\)和\(y\)的连续单调递增函数。如果假设它是可微的（虽然不必要，但可简化我们的推导），我们有

\[F_1(x, y) \equiv \frac{\partial F}{\partial x} \geqslant 0, \quad F_2(x, y) \equiv \frac{\partial F}{\partial y} \geqslant 0 \tag{2} \]

其中第一个式子等号当且仅当\(y\)表示不可能时成立。第二个式子等号当且仅当\(x\)表示不可能时成立（我们这里用\(F_i\)表示关于\(F\)的第\(i\)个参数的微分）。

接下来，我们施加“结构一致性”合情条件\((Ⅲ\text{a})\)：非路径依赖性。比如，对于合情性\(ABC\mid D\)，因为由布尔代数的结合性有\(ABC=(AB)C=A(BC)\)，我们需要满足不管根据何种顺序计算合情性，都会得到相同的结果。比如，一种可能的顺序是先认为\(BC\)是一个命题，然后重复两次应用式子\((1)\)：

\[(ABC \mid D) = F[(BC \mid D), (A\mid BCD)] = F\{F[(C\mid D), (B\mid CD)], (A\mid BCD)\} \]

另外一种可能的顺序是把\(AB\)当成一个命题：

\[(ABC \mid D) = F[(C \mid D), (AB\mid CD)] = F\{(C\mid D), F[(B\mid CD), (A\mid BCD)]\} \]

这两个顺序所导出的合情性结果必须相等。此时，我们有下列命题：

命题3 机器人进行一致性推理的必要条件是，函数必须满足方程

\[F[F(x, y), z] = F[x, F(y, z)] \tag{3} \]

阿贝尔最早在书中使用了这个方程，奥采尔将其称之为“结合方程”（The Associativity Equation）。

根据上述函数方程，最终我们可以证明下列结论（证明详情参见原书，书中假定了\(F\)的可微性）：

结论1 如果要满足函数方程\((3)\)，那么我们要寻找的关系就必须采取如下函数形式：

\[w(AB\mid C) = w(A\mid BC)w(B\mid C) = w(B\mid AC)w(A\mid C)\tag{4} \]

我们将其称之为乘法规则(product rule)。这里\(w(x)\)为满足形式

\[w(x) \equiv \exp \left\{ \int^x \frac{\mathrm{d} x}{H(x)}\right\} \]

的连续单调正值函数（到目前为止，它可以递增且可以递减，且取值任意），其中积分没有下限，\(H(x)\)为任意函数。

式\((4)\)是要达成一致性合情条件\((Ⅲ\text{a})\)：非路径依赖性而必须要满足的必要条件。用数学归纳法也可证明，式\((4)\)对任意数量的命题也都适用（如\(ABCDEFG\mid H\)）。

事实上，除了连续单调递减之外，合情条件\((Ⅱ)\)：类直觉条件对函数\(w(x)\)施加了额外的条件。例如在式\((4)\)的第一种形式中，我们现在假设当给定\(C\)时\(A\)是确定的，那么在由\(C\)的知识产生的“逻辑环境”中，命题\(AB=B\)（\(AB\)为真当且仅当\(B\)为真）根据我们在上一章中讨论的最原始的公理，相同真值的命题必定有相同的合情程度，即

\[AB\mid C = B\mid C \]

除此之外，我们根据常识还需要有

\[A\mid BC = A\mid C \]

因为给定\(C\)时\(A\)已经确定了（即\(C\)蕴含\(A\)），那么当给出任意与\(C\)不矛盾的其它信息\(B\)时，\(A\)仍然是确定的。

注已经被概率论“剧透”过的同学应该就知道，给定\(C\)时\(A\)是确定的\(\Rightarrow\)给定\(C\)时，\(A\)和\(B\)条件独立。

综上所述，式\((4)\)变为

\[w(B\mid C) = w(A\mid C)w(B\mid C) \]

无论\(B\)对机器人多么合情或不合情，它都必须成立。所以我们有以下命题：

命题4 函数\(w(x)\)还必须要具有如下性质：

\[\text{确定性由 } w(A\mid C)=1 \text{ 表示}\tag{5} \]

反过来，假设当给定\(C\)时\(A\)是不可能的（即\(C\)蕴含\(\overline{A}\)），此时式\((4)\)变为

\[w(A \mid C) = w(A\mid C)w(B\mid C) \]

无论\(B\)具有怎样的合情性，这个等式都必须成立。只有两个可能的\(w(A\mid C)\)值满足这个条件：\(0\)或\(+\infin\)（\(-\infin\)被排除了，否则根据连续性，\(w(B\mid C)\)必须能够取负值，这与上式矛盾）。因此，我们有以下命题：

命题5 函数\(w(x)\)满足：

\[\text{不可能由 } w(A\mid C)=0 \text{ 或 } +\infin\text{ 表示}\tag{6} \]

综上所述，\(w(x)\)除了必须满足是连续单调正值函数外，根据合情条件\((Ⅱ)\)：类直觉条件，它还需要满足下列要求：如果是增函数，则范围是从\(0\)（不可能）到\(1\)（确定）；如果是减函数，它的范围必须是从\(+\infin\)（不可能）到\(1\)（确定）（到目前为止，我们的条件还没说明它如何在这些范围内变化）。

这两种可能的表示方式在内容上没什么不同。给定符合上述标准并用\(+\infin\)表示不可能的任意单减函数\(w_1(x)\)，我们同样可以定义同样符合上述标准并用\(0\)表示不可能的单增函数\(w_2(x)\equiv 1/ w_1(x)\)。因此，不失一般性，我们现在选择第一种形式。于是，我们有下列命题：

命题6 \(w(x)\)为满足下列要求的函数：

\[0 \leqslant w(x) \leqslant 1, \quad \text{且}w(x)\text{连续单调递增} \tag{7} \]

不过到目前为止，除了上述条件之外，\(w(x)\)还是具有任意性。

2 加法规则

接下来我们来进一步对\(w(x)\)加以限制。由于我们现在考虑的命题属于亚里士多德逻辑类型，他们必须是非真即假的，其逻辑积\(A\overline{A}\)总是假的（无矛盾律），逻辑和\(A+\overline{A}\)总是真的（排中律）。这也就是说，\(A\)为假的合情性必须在某种程度上取决于它为真的合情性。如果我们定义\(u\equiv w(A\mid B)\)和\(v\equiv w(\overline{A}\mid B)\)，则这意味着必定存在某种函数关系

\[v = S(u) \]

显然，如果我们要满足合情条件\((Ⅱ)\)：类直觉条件，则必有下列命题：

命题7 \(S(u)\)是\(0\leqslant u \leqslant 1\)的连续单调递减函数，并且有极值

\[S(0)=1, S(1)=0 \tag{8} \]

但是进一步我们会发现，它不能是具有这些属性的任意函数，因为它还必须与\(AB\)和\(A\overline{B}\)的乘法规则一致：

\[\begin{aligned} w(AB\mid C) = w(A\mid C)w(B\mid AC),\\ w(A\overline{B}\mid C) = w(A\mid C) w(\overline{B}\mid AC) \end{aligned} \]

将\(v=S(u)\)的关系代入上式得

\[w(AB\mid C)=w(A\mid C)S(w(\overline{B}\mid AC))=w(A\mid C) S\left[\frac{w(A\overline{B}\mid C)}{w(A\mid C)}\right] \]

我们再次应用交换性：\(w(AB\mid C)\)关于\(A\)和\(B\)对称，因此一致性\((Ⅲ\text{a})\)：非路径依赖性要求

\[w(A\mid C) S\left[\frac{w(A\overline{B}\mid C)}{w(A\mid C)}\right] = w(B\mid C) S\left[\frac{w(B\overline{A}\mid C)}{w(B\mid C)}\right] \tag{9} \]

这对于所有命题\(A, B, C\)都成立。特别地，给定任意新命题\(D\)，当\(\overline{B}=AD\)时上式当然也成立。此时，我们在上一篇博客《概率论沉思录：合情推理》中推导过下列结论：

\[A\overline{B} = \overline{B}, \quad B\overline{A} = \overline{A} \]

这样，我们可以做如下代换：

\[\begin{aligned} w(A\overline{B}\mid C) = w(\overline{B}\mid C)=S[w(B\mid C)],\\ w(B\overline{A}\mid C) = w(\overline{A}\mid C)=S[w(A\mid C)] \end{aligned} \]

令\(x\equiv w(A\mid C), y=w(B \mid C)\)，则有\(w(A\overline{B}\mid C)=S(y)\), \(w(B\overline{A}\mid C)=S(x)\)。代入式\((6)\)得到下列命题：

命题8

\[xS[\frac{S(y)}{x}] = y S[\frac{S(x)}{y}],\quad 0\leqslant S(y)\leqslant x,\space 0\leqslant x \leqslant 1\tag{10} \]

（关于这里的定义域，是因为\(S(y)=w(\overline{B}\mid C)=w(AD\mid C)=w(A\mid C) w(D\mid AC)\)，而\(w(A\mid C)=x\)，且对任意命题\(D\)有\(0\leqslant w(D\mid AC)\leqslant 1\)，故\(0\leqslant S(y) \leqslant x\)。注意，由于对称性，同样有\(0\leqslant S(x) \leqslant y,\space 0\leqslant y \leqslant 1\)）

这表明，为继续满足乘法规则，\(S(x)\)必须具有缩放属性。在\(y=1\)的特殊情况下，它变为

\[S[S(x)] = x \]

这表明\(S(x)\)是一个自反函数：\(S(x) = S^{-1}(x)\)（即反函数和原函数相同）。因此，有\(v=S(u)\)则必有\(u=S^{-1}(v)=S(v)\)。这体现了一个明显的事实，也即\(A\)和\(\overline{A}\)之间的关系是自反的，至于字母和带上横线的字母哪个表示原命题，哪个表示命题的否定，都无关紧要。我们在上一篇博客定义命题的否定时就注意到了这一点（虽然当时可能还不明显）。

事实上，我们有下列命题（详细证明过程请参见原书）：

命题9 满足上述条件的\(S\)（且满足\(S(0)=1\)）的唯一解是

\[S(x) = (1 - x^m)^{1/m},\quad 0\leqslant x \leqslant 1, \space 0 < m < +\infin \tag{11} \]

反过来，我们也可以验证式\((11)\)是式\((10)\)的解。式\((11)\)是满足函数方程\((10)\)和左边界条件\(S(0)=1\)的最一般函数。然后，我们会发现它自动满足右边界条件\(S(1)=0\)。

由于对函数方程\((10)\)的推导使用了\(\overline{B}=AD\)的特殊选择，我们到目前为止只表明了式\((11)\)是满足一般的一致性要求式\((9)\)的必要条件。要检查其是否充分，将式\((11)\)代入式\((9)\)，我们得到

\[w^m (A\mid C) - w^m (A\overline{B}\mid C) = w^m (B\mid C) - w^m (B\overline{A}\mid C) \]

该式可由乘法规则得到。因此，我们证明了式\((11)\)是\(S(x)\)在式\((9)\)意义下的一致性的充要条件。

到目前为止，我们的结果可总结如下：逻辑积的结合性要求合情性\(x = A\mid B\)的单调函数\(w(x)\)必须遵守乘法规则式\((4)\)。而我们的结果式\((11)\)指出，这个函数也必须遵守下列规则：

结论2 对于正数\(m\)，函数\(w(x)\)必须满足：

\[w^m(A\mid B) + w^m (\overline{A}\mid B) = 1 \tag{12} \]

（由\(x^m + (1 - x^m)^{\frac{1}{m} \cdot m}=1\)得到）

我们将其称之为加法规则（sum rule）。

当然，乘法规则也可以写成

\[w^m(AB\mid C) = w^m(A\mid BC)w^m(B\mid C) = w^m(B\mid AC)w^m(A\mid C) \]

我们发现\(m\)的值实际上无关紧要，因为无论\(m\)取什么值都可以定义一个新函数

\[p(x) \equiv w^m (x) \]

而如果\(w(x)\)为\(0\)到\(1\)之间的连续单调递增函数，那么\(w^m(x)\)必然也满足该条件。这样，我们的规则变为

1. 乘法规则

\[p(AB\mid C) = p(A\mid C)p(B\mid AC) = p(B\mid C)p(A\mid BC) \tag{13} \]

2. 加法规则

\[p(A\mid B) + p(\overline{A}\mid B) = 1 \tag{14} \]

其中\(p(x)\)是任意连续单调递增函数，且值域为\(0\leqslant p(x) \leqslant 1\)。

除了乘法规则和加法规则之外，是否需要更多的关系来得到一套完备的合情推理规则，以便确定任意逻辑函数\(f(A_1, \cdots, A_n)\)的合情性呢？在乘法规则和加法规则中，我们已经得到了合取\(AB\)和否定\(\overline{A}\)的合情性公式。而由于我们在上一篇博客《概率论沉思录：合情推理》中已经提到，合取和否定是运算的完备集合，可以从中构造出所有逻辑函数。因此，通过反复应用乘法规则和加法规则，我们可以得到\(A_1, \cdots, A_n\)生成的布尔代数中任意命题的合情性。

为了证明这一点，我们首先寻求逻辑和\(A + B\)的公式。反复应用乘法规则和加法规则，我们可以得到

\[\begin{aligned} p(A + B \mid C) &= 1 - p(\overline{A}\space{ }\overline{B} \mid C) \\ & = 1 - p(\overline{A}\mid C)p(\overline{B}\mid \overline{A} C)\\ & = 1 - p(\overline{A}\mid C) \left[ 1 - p(B\mid \overline{A}C)\right]\\ & = p(A\mid C) + p(\overline{A}B\mid C) \\ & = p(A\mid C) + p(B\mid C)p(\overline{A}|BC) \\ & = p(A\mid C) + p(B\mid C)\left[1 - p(A\mid BC)\right] \\ & = p(A\mid C) + p(B\mid C) - p(AB\mid C) \end{aligned} \]

最后，我们有

\[p(A + B \mid C) = p(A\mid C) + p(B\mid C) - p(AB\mid C) \tag{15} \]

我们将最后得到的这个式子称为广义加法规则（generalized sum rule）。显然，原始加法规则\((14)\)是广义加法规则\((15)\)在\(B=\overline{A}\)时的特例。

我们在上一篇博客中提到，除相互矛盾之外的任何逻辑函数都可以用析取范式（DNF）表示为基本合取式的逻辑和。现在，我们已知任何一个基本合取式\(\{Q_i, 1\leqslant i \leqslant 2^n\}\)（\(n\)为命题数）的合情性都可以通过重复应用乘法规则确定，因此重复应用\((15)\)将产生\(Q_i\)的任意逻辑和的合情性。

于是，每当背景信息足以确定基本合取式的合情性时，我们的规则就足以确定\({A_1, \cdots, A_n}\)生成的布尔代数中每个命题的合情性。因此，正如合取和否定是演绎逻辑的一组完备运算集，上述乘法和加法的规则也是合情推理的一组完备规则集。

3 无差别原则（初始化数值）

到目前为止，我们得到的乘法规则和加法规则描述了不同命题直接合情性之间的关系，也即描述了机器人“大脑”内部运作的基本规则。然而，我们并没有说明合情性是怎么和我们的客观世界产生联系的，也即机器人是怎么根据背景信息对合情性进行初始化赋值的。为此，我们必须诉诸合情条件中尚未使用的“接口”条件\((Ⅲ\text{c})\)：全同性。

在广义加法规则\(（15）\)的基础之上，逐步添加更多命题\(A_3, A_4, A_5, \cdots\)等，用数学归纳法可以证明，如果我们有\(n\)两两互斥的命题\({A_1,\cdots, A_n}\)，那么上式可以推广为：

\[p(A_1 + \cdots + A_m \mid B) = \sum_{i=1}^m p (A_i\mid B), 1\leqslant m \leqslant n\tag{16} \]

接下来，我们假定命题\({A_1,\cdots, A_n}\)不仅是互斥的，而且是穷尽的（exhaustive），即背景信息决定了其中一个且仅一个必须为真，在这种情况下，我们有下列命题：

命题10 当\(m=n\)时，上述和式必须等于1：

\[\sum_{i=1}^n p (A_i\mid B) = 1 \tag{17} \]

到目前为止，我们还不能确定每个数值\(p(A_i\mid B)\)。我们可能凭借直觉，直接做出\(p (A_i\mid B) = \frac{1}{n}\)的论断。然而在这里，我们需要压制住所有直觉，从逻辑分析的角度去进行论证。

我们现考虑一个互斥且穷尽的命题集合：

\[\{A_1, A_2, \cdots, A_n\} \]

我们把它看做是\(n\)个贴有标签\(1, 2, \cdots, n\)的盒子。现在，我们把盒子的标签进行任意的打乱，得到重新编号的盒子集合：

\[\{A_1^{\prime}, A_2^{\prime}, \cdots, A_n^{\prime}\} \]

我们设现在第贴上标签\(k\)的盒子\(A^{\prime}_k\)实际上对应的是原来的盒子\(A_i\)。由于本质上是同一个盒子（命题），那么从客观角度而言，我们规定对于机器人必须有：

\[p(A_i\mid B) = p(A^{\prime}_k\mid B), \quad i = 1, 2, \cdots, n \]

上述方程我们称为变换方程（transformation equations），对于任何信息\(B\)都必须成立。

但是刚刚是从做为”上帝视角“的客观角度而言，对于机器人而言它并不知道盒子的标签是如何打乱的，也即它对于原始命题集合\(\{A_1, A_2, \cdots, A_n\}\)和打乱标签后的命题集合\(\{A_1^{\prime}, A_2^{\prime}, \cdots, A_n^{\prime}\}\)的知识状态是完全相同的。而我们的一致性合情条件\((Ⅲ\text{c})\)要求机器人在等同的知识状态中就要赋予相同的合情性，也就是说还必须得有：

\[p(A_k\mid B) = p(A^{\prime}_k\mid B), \quad k = 1, 2, \cdots, n \]

我们称其为对称方程（symmetry equations）。

注如果你是物理壬的话对这个方程应该会很有直觉，可以把\(B\)理解为给定的哈密顿量，对命题\(A_k\)、\(A^{\prime}_k\)的概率赋值可以理解为找对应的平衡态/基态的问题。在无任何自发对称性破缺的情况下（也就是满足合情条件\((Ⅲ\text{c})\)：全同性），最后的平衡态也应该具有唯一性，于是自然就会得到我们这个结论。

联立变换方程和对称方程，我们有

\[p(A_i\mid B) = p(A_k \mid B) \quad i=1,2,\cdots, n \]

这包括了\(n\)个等式，每个\(i\)都对应某个\(k\)。

不过，以上只是一种特定的打乱方式，我们要求对于任意的标签打乱方式这些关系都必须要成立。一共有\(n!\)标签打乱方式，因此有\(n!\)个等价的问题。而对于给定的\(i\)，上式中的\(k\)实际上将遍历所有其它的所有\(n-1\)个下标。因此，想满足上述的等式的话，唯一的可能性是所有的\(p(A_i\mid B)\)相等。再加上\(\{A_1^{\prime}, A_2^{\prime}, \cdots, A_n^{\prime}\}\)是穷尽的，式\((17)\)必须成立，从而我们得到下列结论：

结论3 对命题集合\(\{A_1, A_2, \cdots, A_n\}\)的合情性进行初始化赋值的唯一的可能是

\[p(A_i\mid B) = \frac{1}{n}, \quad 1 \leqslant i \leqslant n \tag{18} \]

我们终于得到了一组合情性的确定数值！我们将这个结果称为无差别原则（principle of indifference）。

于是，我们的机器人在内部的存储器电路中只需要存储\(p_i\)的数值即可。接下来合情性\(x\equiv A\mid B\)这个概念就可以退场了，我们不需要再使用它。我们可以完全通过量\(p\)来实现我们的合情推理理论，我们将其称为概率（probability）。

概率\(p\)定义了可以测量合情程度的一种特定尺度。虽然所有可能的单调函数在原则上都可以很好地服务于此目的，但我们选择这个（满足无差别原则的）特定的函数不是以为它更准确，而是因为它更方便。这种情况类似于热力学中定标的情况。所有可能的经验温标\(t\)都是彼此的单调函数，我们之所以决定使用开尔文温标\(T\)，不是因为它比其它温标更准确，而是因为它更方便。热力学定理在这个温标下具有最简单的形式，比如我们熟知的\(\mathrm{d}U = T\mathrm{d}S - P\mathrm{d}V, \mathrm{d}G = - S\mathrm{d}T + V\mathrm{d}P\)等等中的\(T\)都是开尔文温标。

注之前我们的加法规则：\(p(A\mid C) + p(\overline{A}\mid C) = 1\)和两个边界条件：\(p(A\mid C)=1\)（若\(A\)为真）、\(p(A\mid C)=0\)（若\(A\)为假）事实上已经完成了第一次定标，也即限制了\(p(A\mid C)\)和\(p(\overline{A}\mid C)\)的关系和各自的值域（即\([0, 1]\)的范围内）。第一次定标可以理解为，使每个人的合情性打分在打分区间上是一样的。但是，即使我们已经对\(p\)加以了限定，但\(p\)仍然是一个任意的函数（每个人都不同），因此我们还需要第二次定标，也就是我们这里的全同性规则：\(P(A_i\mid B) = \frac{1}{n}\)。第二次定标使每个人的合情性打分从数值上来说都符合相同的标准。这样，我们就可以将每个人的主观感觉转换为统一的数值加以比较了。两次定标的直观理解可以参见下图（图中黑色和红色的曲线可以视为两个不同人的合情性打分/概率）：

还可以马上从式\((17)\)中导出符合我们直觉的另一个规则。考虑概率论中的传统”伯努利坛子“问题：坛子中的10个球具有相同的大小和重量，标号为\(\{1, 2, \cdots, 10\}\)，其中的3个（标号为\(4, 6, 7\)）为黑球，另外7个是白球。我们摇动坛子并随机取一个球。式\((10)\)中的背景信息\(B\)由这两句陈述组成。我们取出一个黑球的概率是多少？

定义命题：\(A_i \equiv 取出的是第i个球（1\leqslant i \leqslant 10）\)。由于这10种可能性都有相同的背景信息，所以式\((18)\)适用，机器人为这10种可能性分配相同的概率值

\[p(A_i\mid B) = \frac{1}{10}, \quad 1 \leqslant i \leqslant 10 \]

说“取出一个黑球”就是“取出的球标号为4、6或7”：

\[p(黑球\mid B) = p(A_4 + A_6 + A_7\mid B) \]

而这些都是互斥的命题（即它们表示互斥的事件），因此式\((16)\)适用：

\[p(黑球\mid B) = p(A_4) + p(A_6) + p(A_7) = \frac{3}{10} \]

而这正如直觉告诉我们的那样。更一般地，如果有\(N\)个这样的球，命题\(A\)被定义为在任意的\(M\)个球的子集上为真（\(0\leqslant M \leqslant N\)），在其补集上为假，我们有：

\[p(A\mid B) = \frac{M}{N} \]

这正是詹姆斯·伯努利（James Bernoulli）给出的概率的原始数学定义，它在接下来的150年中被大多数作者所使用。例如，拉普拉斯的巨著《分析概率论》^[3]以这句话开头：

\[事件的概率是满足条件的实例数量与所有实例数量之比，前提是没有任何事情导致我们预期\\ 这些实例中的任何一个会比其它实例发生得更多，也就是对我们来说，它们是等可能的。 \]

4 和定性属性的联系

最后，让我们看一下定量规则是如何与我们在上一篇博客《概率论沉思录：合情推理》中提到的定性三段论相关联的。首先，显而易见的是，在\(p(A\mid B)\rightarrow 0\)或\(p(A\mid B)\rightarrow 1\)的极限情形下，加法规则\((14)\)描述了亚里士多德逻辑的原始假设：若\(A\)为真，则\(\overline{A}\)必定为假，等等。

事实上，所有这些逻辑都包括我们在上一篇博客中所提到的两种强三段论以及从它们推演出的所有内容。这两种强三段论即：

\[\begin{aligned} A \Rightarrow B \\ \underline{\quad \quad \space \space \space A真}\\ B真 \end{aligned}\quad\quad\quad\quad \begin{aligned} A \Rightarrow B \\ \underline{\quad \quad \space \space \space B假}\\ A假 \end{aligned} \tag{19} \]

（现在使用蕴含标记\(\Rightarrow\)来表示大前提）

它们有无穷无尽的推论。这里的大前提就是我们之前一直所说的背景信息（常识），我们用字母\(C\)来表示，即

\[C \equiv A \Rightarrow B \]

那么，这两种三段论分别是要确定\(p(B\mid AC)\)和\(p(A\mid \overline{B}C)\)，根据乘法规则\((13)\)我们可以将它们表示为：

\[p(B\mid AC) = \frac{p(AB\mid C)}{p(A\mid C)}, \quad p(A\mid \overline{B}C) = \frac{p(A\overline{B}\mid C)}{p(\overline{B}\mid C)} \]

接着，根据式\((19)\)的大前提\(A\Rightarrow B\)，我们有逻辑方程\(AB=A\)与变量关系\(\overline{A} + B = 1, A\overline{B}=0\)（参见上一篇博客的结论）。于是我们有\(p(AB \mid C) = p(A\mid C)\)；\(p(A\overline{B})=0\)，于是

\[p(B\mid AC) = 1, \quad p(A\mid \overline{B}C) = 0 \]

这正是三段论式\((19)\)所陈述的内容。因此，关系很简单：亚里士多德演绎逻辑是我们的合情推理规则在机器人对其结论越来越确信时的极限形式。

除此之外，我们的规则也包含了演绎逻辑中没有的内容：我们在上一篇博客中所提到的弱三段论的定量形式。比如，对于第一种弱三段论：

\[\begin{aligned} A \Rightarrow B \\ \underline{\quad \quad \space \space \space B真}\\ A变得更合情 \end{aligned}\quad\quad\quad\quad \tag{20} \]

就可以写作：

\[p(A\mid BC) = p( B \mid AC) \frac{p(A\mid C)}{p(B\mid C)} \]

其中由于\(p(B\mid AC)=1\)，而\(p(B\mid C)\leqslant 1\)（概率的固有数值范围），所以

\[p(A \mid BC) \geqslant p(A\mid C) \]

而这正和弱三段论\((20)\)相吻合。

对于第2种三段论：

\[\begin{aligned} A \Rightarrow B \\ \underline{\quad \quad \space \space \space A假}\\ B变得更不合情 \end{aligned}\quad\quad\quad\quad \tag{21} \]

可以写作：

\[p(B \mid \overline{A}C) = p(B\mid C)\frac{p(\overline{A} \mid BC)}{p(\overline{A}\mid C)} \]

由\(p(A \mid BC) \geqslant p(A\mid C)\)得，\(p(\overline{A}\mid BC) \leqslant p (\overline{A}\mid C)\)，那么

\[p(B\mid \overline{A}C) \leqslant p(B\mid C) \]

这也和弱三段论\((21)\)吻合。

最后，我们来看警察推理所使用的三段论（参见上一篇博客《概率论沉思录：合情推理》）。也即命题\(A\)为「男子是坏人」，命题\(B\)为「男子做出上述行为」，\(C\)为背景信息「\(A\)真则\(B\)更合情」（按警察的经验，好人几乎不可能有此行为，而坏人有此行为则更合理），则弱三段论定义如下：

\[\begin{aligned} A真则B更合情 \\ \underline{\quad \quad \space \space \space B真}\\ A变得更合情 \end{aligned}\quad\quad\quad\quad \tag{22} \]

它可以写作：

\[p(A \mid BC) = p(A\mid C)\frac{p(B \mid AC)}{p(B\mid C)} \]

而跟背景信息\(C\)，我们有\(p(B\mid AC) > p(B\mid C)\)，于是

\[p(A\mid BC) > p(A\mid C) \]

而这正如我们的弱三段论所述。

事实上，引入概率\(p\)之后我们得到的不止上述的定性描述，我们还可以定量地分析合情性具体变化了多少。我们在上一篇博客中的“思维计算机”一节曾提问“是什么决定了\(A\)的合情性是大幅增加到几乎确定的程度，还只是提升了可以忽略不计的一点点并使得数据\(B\)几乎无关紧要？”现在我们给出的答案是，因为\(p(B\mid AC)\leqslant 1\)，所以只有当\(p(B\mid C)\)非常小时，\(A\)的合情性才会大幅增加。也就是说，如果警察经常几乎没有看见路人这样做过，那么当他看见男子的行为（\(B\)）时，就几乎会肯定男子有罪（\(A\)）。此外，如果知道\(A\)为真只能使\(B\)的合情性有微不足道的增加，那么观察到\(B\)反过来也只能使\(A\)的合情性有几乎可以忽略不计的增加。

除了上述我们展示的几个经典的弱三段论之外，还有许多弱三段论都可以通过上述的合情推理定量规则来表示（参见Polya的著作^[4]），感兴趣的童鞋可以去进一步延伸阅读。

5 评注

主观与客观

在我们发展的理论中，任何概率赋值都必然是“主观的”，因为它只描述了一种知识状态，而不是任何可以在物理实验中测量的东西（这里的知识状态是推理机器人的、或按照合情条件推理的其它人的）。与此同时，我们的接口条件\((Ⅲ\text{b})(Ⅲ\text{c})\)又使得这些概率赋值是完全“客观的”，因为他们与不同用户的个性无关。它们是根据问题给出的陈述来描述（或者说编码）信息的一种手段，与你我对于所涉及命题可能拥有的个人感受（希望、恐惧、价值判断等）无关。这种意义上的“客观性”正是成为受人敬重的科学推断理论所需要的。

维恩图
有读者可能会问：“我们为什么不用维恩图来解释广义加法规则\(p(A + B \mid C) = p(A\mid C) + p(B\mid C) - p(AB\mid C)\)呢？这能它的含义更加清晰。”我们认为，维恩图的使用是存在局限性的，因为它要求事件\(A\)和\(B\)所对应的区域面积是可加的，也就说它要求事件\(A\)、\(B\)可以被分解为一些互斥子命题的析取。我们想象将\(A\)、\(B\)一直细分为图中的各个点，也即最终的“基本”命题\(\omega_i\)（当然，物理学家会拒绝称它们为“原子”命题(#^.^#)）。

然而，我们推理的大多数命题，如\(A\)：「今天会下雨」、\(B\)：「屋顶会漏水」只是事实性的描述性语句，它们在具体的问题情景下不一定能分解成更多的基本命题。当然，你也可以引入一些无关紧要的东西来强制分解。例如，即使上面定义的\(B\)与企鹅无关，我们也可以将其分解为析取\(B = BC_1 + BC_2 + BC_3 + \cdots + BC_N\)，其中\(C_k\)表示「南极洲的企鹅数量是\(k\)」。通过使\(N\)足够大，我们肯定能得到一个有效的布尔代数陈述，但这是无事找事，且无法帮助我们推断屋顶是否会漏水的命题。

柯尔莫哥洛夫公理

1933年，柯尔莫哥洛夫提出了一种用集合论和测度论的语言表达概率论的方法，对我们前面提到的维恩图所暗示的内容进行了形式化和公理化。事实上，在柯尔莫哥洛夫系统中最初似乎是由他随意提出的（柯尔莫哥洛夫也因此遭到批评）的概率测度的四个公理，都可以作为满足我们一致性条件的结论被推导出来。因此，我们将发现我们在许多技术问题上支持柯尔莫哥洛夫，反对他的批评者。

然而，我们的概率系统在概念上与柯尔莫哥洛夫的系统不同，因为我们不用集合来解释命题，而是将概率分布解释为不完全信息的载体。这导致的部分结果就是，我们的系统拥有柯尔莫哥洛夫系统中根本没有的分析资源，这使我们能够阐述和解决更多问题（在后面的章节中将进行讨论）。

频率派和贝叶斯派

这一小节是我自己加的，意在将贝叶斯学派（本书的视角）和频率学派做个对比，方便之后的学习：

	频率学派	贝叶斯学派
历史沿革	初期思想可追溯到19实际，而在20世纪初得到了系统的发展。这一时期的代表人物包括罗纳德·A·费希尔（Ronald A. Fisher）和耶尔齐·尼曼（Jerzy Neyman）。他们推崇基于重复试验来获取参数的固定值，并基于此进行统计推断。	起源可追溯到18世纪的托马斯·贝叶斯（Thomas Bayes）和皮埃尔·西蒙·拉普拉斯（Pierre Simon Laplace）。他们通过结合先验知识和观测数据来更新对未知参数的信念。
数学根基	柯尔莫哥洛夫（Kolmogorov）公理化体系	5条合情条件依赖布尔代数
尝试描述/建模的内容	样本空间中的事件本身	作为扩展的逻辑，人类对事件的认知/知识/信念。
世界观简述	上帝视角：事件本身是随机的/世界带有某种随机性所谓概率是事件本身的性质随着独立重复实验的进行，人们对事件概率值的估计会越来越准确，但是概率值本身是不变的。	观察者视角：人类对世界的认知是不完备的所谓概率描述了人类对事件的感觉/认知/知识/信念，即观察者对事件的知识状态随着人获取更多信息，概率值会不断更新和改变 *（对于）万事万物（的认知）皆分布
概率的定义	统计定义：独立重复试验中发生的频率趋于极限\(p\)；古典概率：实验中有\(N\)个等可能结果，事件\(E\)包含了其中\(M\)个结果，则概率\(P(E)=M/N\)	一个实数，代表人类对事件的感觉/认知/知识/信念，经过了定标和归一化，不同人之间可以相互比较。
对参数估计过程的描述	参数存在一个固定的真值，数据是随机和变动的使用点估计值（一个数值）+置信区间（confidence interval）来描述参数估计的结果。形式为 \(估计值^{+上限差}_{-下限差}\) 95%置信区间：多次重复试验，进行点估计并计算置信区间，其中的95%会包含（套住）真值（真值不变区间变）	数据是固定的，而待估计的参数是未知和变动的使用后验分布（一个函数）来描述参数估计的结果。但是也可以使用可信区间（credible interval）来简化输出，例如：\(概率密度最大值/均值/中值^{+上限差}_{-下限差}\)。 95%可信区间：参数落在此区间的概率为95%（区间不变真值变）
处理问题的额外工具	需要各种特定工具（ad-hoc devices）	只需要讨论概率，不需要其它工具

参考

[1] Jaynes E T. Probability theory: The logic of science[M]. Cambridge university press, 2003.
[2] 杰恩斯. 廖海仁译. 概率论沉思录[M]. 人民邮电出版社, 2024.
[3] Laplace P S. Théorie analytique des probabilités[M]. Courcier, 1820.
[4] Polya G. Mathematics and Plausible Reasoning: Patterns of plausible inference[M]. Princeton University Press, 1990.

posted @ 2024-10-17 15:42 orion-orion 阅读(230) 评论(0) 编辑收藏举报

刷新页面返回顶部

Orion's Blog

联邦学习、图机器学习、推荐系统