PRML-1.2.3 贝叶斯概率
\(\ \ \ \ \ \ 本 章 ⽬ 前 为 ⽌, 我 们 根 据 随 机 重 复 事 件 的 频 率 来 考 察 概 率。 我 们 把 这 个 叫 做 经 典 的\)(classical)\(或者频率学家\)(frequentist)\(的关于概率的观点。现在我们转向更加通⽤的贝叶斯\)(Bayesian)\(观点。这种观点中,频率提供了不确定性的⼀个定量化描述。\)
\(\ \ \ \ \ \ 考虑⼀个不确定性事件,例如⽉球是否曾经处于围绕太阳的⾃⼰的轨道上,或者本世纪末北极冰盖是否会消失。这些事件⽆法重复多次,因此我们⽆法像之前⽔果盒⼦那样定义概率。但是,我们通常会有⼀些想法,例如,北极冰盖融化的速度等等。如果我们我们获得到了新鲜的证据,例如⼈造卫星收集到了⼀些新的修正信息,我们可能就会修正我们对于冰盖融化速度的观点。我们估计冰盖融化速度会影响我们采取的措施,例如我们会努⼒减少温室⽓体的排放。在这样的情况下,我们可能希望能够定量地描述不确定性,并且根据少量新的证据对不确定性进⾏精确的修改,对接下来将要采取的动作进⾏修改,或者对最终的决策进⾏修改。这可以通过⼀种优雅的通⽤的贝叶斯概率观点来实现。\)
\(\ \ \ \ \ \ 然⽽,在作出合理的推断时,如果我们想要尊重常识,那么使⽤概率论来表达不确定性不是可选的,⽽是不可避免的。例如,Cox(1946)证明,如果⽤数值来表⽰置信的程度,那么编码了这种置信度中符合常识的⼀组简单的公理能够唯⼀地推导出⼀组规则来操控置信的程度,这组规则等价于概率的加和规则和乘积规则。这⾸次含糊地证明了概率论能够被当做布尔逻辑在涉及到不确定性的问题时的扩展(Jaynes, 2003)。许多其他学者也发表了不同的性质集合或者公理集合,这些性质或公理是不确定性的度量应该满⾜的(Ramsey, 1931; Good, 1950; Savage,1961; deFinetti, 1970; Lindley, 1982)。在这些情形下,结果的数值量的⾏为精确地符合概率的规则。因此把这些量看成(贝叶斯观点的)概率就很⾃然了。\)
\(\ \ \ \ \ \ 在模式识别领域,对概率有⼀个更加通⽤的观点同样是很有帮助的。考虑1.1节讨论过的多项式曲线拟合的例⼦。对于观察到的变量tn这⼀随机值的概率,应⽤频率学家的观点似乎是很合理的。然⽽,我们想针对模型参数w的合适选择进⾏强调和定量化。我们将会看到,从贝叶斯的观点来看,我们能够使⽤概率论来描述模型参数(例如w)的不确定性,或者模型本⾝的选择。\)
\(贝叶斯定理现在有了⼀个新的意义。回忆⼀下,在⽔果盒⼦的例⼦中,⽔果种类的观察提供了相关的信息,改变了选择了红盒⼦的概率。在那个例⼦中,贝叶斯定理通过将观察到的数据融合,来把先验概率转化为后验概率。正如我们将看到的,在我们对数量(例如多项式曲线拟合例⼦中的参数w)进⾏推断时,我们可以采⽤⼀个类似的⽅法。在观察到数据之前,我们有⼀些关于参数w的假设,这以先验概率p(w)的形式给出。观测数据D = {t1, . . . , tN }的效果可以通过条件概率p(D | w)表达,我们将在1.2.5节看到这个如何被显式地表达出来。贝叶斯定理的形式为\)
\(p(w|D)=\frac{p(D|w)p(w)}{p(D)} -1.43\)
\(\ \ \ \ \ \ 它让我们能够通过后验概率p(w | D),在观测到D之后估计w的不确定性。\)
\(\ \ \ \ \ \ 贝叶斯定理右侧的量p(D | w)由观测数据集D来估计,可以被看成参数向量w的函数,被称为似然函数\)(likelihood function)\(。它表达了在不同的参数向量w下,观测数据出现的可能性的⼤⼩。注意,似然函数不是w的概率分布,并且它关于w的积分并不(⼀定)等于1。\)
\(\ \ \ \ \ \ 给定似然函数的定义,我们可以⽤⾃然语⾔表述贝叶斯定理\)
posteriro \(\propto\) likelihood \(\times\)prior
\(其中所有的量都可以看成w的函数。公式(1.43)的分母是⼀个归⼀化常数,确保了左侧的后验概率分布是⼀个合理的概率密度,积分为1。实际上,对公式(1.43)的两侧关于w进⾏积分,我们可以⽤后验概率分布和似然函数来表达贝叶斯定理的分母\)
\(p(D)=\int p(D|w)p(w)dw\)
\(参看1.2概率论,贝叶斯定理 可以用加法规则得到\)
\(\ \ \ \ \ \ 在贝叶斯观点和频率学家观点中,似然函数p(D | w)都起着重要的作⽤。然⽽,在两种观点中,使⽤的⽅式有着本质的不同。在频率学家的观点中,w被认为是⼀个固定的参数,它的值由某种形式的“估计”来确定,这个估计的误差通过考察可能的数据集D的概率分布来得到。相反,从贝叶斯的观点来看,只有⼀个数据集D(即实际观测到的数据集),参数的不确定性通过w的概率分布来表达。\)
\(\ \ \ \ \ \ 频率学家⼴泛使⽤的⼀个估计是最⼤似然\)(maximum likelihood)\(估计,其中w的值是使似然函数p(D | w)达到最⼤值的w值。这对应于选择使观察到的数据集出现概率最⼤的w的值。在机器学习的⽂献中,似然函数的负对数被叫做误差函数\)(error function)\(。由于负对数是单调递减的函数,最⼤化似然函数等价于最⼩化误差函数。\)
\(\ \ \ \ \ \ ⼀种决定频率学家的误差的⽅法是⾃助法\)(bootstrap)(Efron, 1979; Hastie et al., 2001)\(。这 种 ⽅ 法 中, 多 个 数 据 集 使 ⽤ 下 ⾯ 的 ⽅ 式 创 造。 假 设 我 们 的 原 始 数 据 集 由N个数 据点X = {x1, . . . , xN }组成。我们可以通过随机从X中抽取N个点的⽅式,创造⼀个新的数据集XB。抽取时可以有重复,因此某些X中的数据点可能在XB中有重复,⽽其他的在X中的点会在XB中缺失。这个过程可以重复L词,⽣成L个数据集,每个数据集的⼤⼩都是N,每个数据集是通过对袁术数据集X采样得到的。参数估计的统计准确性之后就可以通过考察不同的⾃助数据集之间的预测的变化性来进⾏评估。\)
\(\ \ \ \ \ \ 贝叶斯观点的⼀个优点是\color{red}{对先验概率的包含是很⾃然的事情}。例如,假定投掷⼀枚普通的硬币3次,每次都是正⾯朝上。⼀个经典的最⼤似然模型在估计硬币正⾯朝上的概率时,结果会是1,表⽰所有未来的投掷都会是正⾯朝上!相反,⼀个带有任意的合理的先验的贝叶斯的⽅法将不会得出这么极端的结论。\)
\(\ \ \ \ \ \ 关于频率学家的观点和贝叶斯的观点的相对优势有很多争论。事实上并没有纯粹的频率学家观点或者贝叶斯的观点。例如,针对贝叶斯⽅法的⼀种⼴泛的批评就是\color{red}{先验概率的选择通常是为了计算的⽅便⽽不是为了反映出任何先验的知识}。某些⼈甚⾄把贝叶斯观点中结论对于先验选择的依赖性的本质看成困难的来源。减少对于先验的依赖性是所谓⽆信息\)(noninformative)\(先验的⼀个研究动机。然⽽,这会导致⽐较不同模型时的困难,并且实际上当先验选择不好的时候,贝叶斯⽅法有很⼤的可能性会给出错误的结果。频率学家估计⽅法在⼀定程度上避免了这⼀问题,并且例如交叉验证的技术在模型⽐较等⽅⾯也很有⽤。\)
\(\ \ \ \ \ \ 本书着重强调贝叶斯观点,这反映出过去⼏年贝叶斯⽅法在实际应⽤中重要性的逐渐增长。本书也会在必要的时候讨论有⽤的频率学家观点下的概念。\)
\(\ \ \ \ \ \ 虽然贝叶斯的框架起源于18世纪,但是贝叶斯⽅法的实际应⽤在很长时间内都被执⾏完整的贝叶斯步骤的困难性所限制,尤其是需要在整个参数空间求和或者求积分,这在做预测或者⽐较不同的模型时必须进⾏。取样⽅法的发展,例如马尔科夫链蒙特卡罗(在第11章讨论),以及计算机速度和存储容量的巨⼤提升,打开了在相当多的问题中使⽤贝叶斯技术的⼤门。蒙特卡罗⽅法⾮常灵活,可以应⽤于许多种类的模型。然⽽,它们在计算上很复杂,主要应⽤于⼩规模问题。\)
\(\ \ \ \ \ \ 最近,许多⾼效的判别式⽅法被提出来,例如变种贝叶斯\)(variational Bayes)\(和期望传播\)(expectation propagation)\(。这些提供了⼀种可选的补充的取样⽅法,让贝叶斯⽅法能够应⽤于⼤规模的应⽤中\)(Blei et al., 2003)
无论是频率派还是贝叶斯派,似然函数都起着重要的作用,然而对似然函数使用方式的不同是两者最本质的区别。以上一节介绍的曲线拟合为例,频率派认为参数\(\mathbf{w}\)固定而数据是随机产生的,我们通过最大化似然函数的思想利用观测数据去反推这个值。而贝叶斯派则认为数据集是确定的,模型参数\(\mathbf{w}\)是随机的,我们通过似然函数将先验修改为后验。频率派利用交叉验证来选择合适的模型,但贝叶斯中先验的选择通常出于数学上的方便,而不是是否符合直觉。
贝叶斯一直面临着两个难题:
合理的推断依赖于合适的先验,如何选取合适的先验却一直被频率派诟病
一个完整的贝叶斯推断过程(比如作预测或比较模型)通常包含参数空间的积分,带来高昂的计算代价
近几十年来随着计算机运算速度的提高,后验概率的计算逐渐变得可行,目前可行的方法有两种:
基于采样的方法 主要代表是MCMC,Gibbs采样。这类方法的优点是精度高,适用于任何形式的后验估计;缺点是效率低,只适用于小规模数据。
基于优化的方法 主要代表是变分贝叶斯。这类方法的优点是速度快,适用于大规模数据;缺点是牺牲了精度以换取速度的提升。