博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

贝叶斯定律

Posted on 2019-06-27 13:39  小猪课堂  阅读(1205)  评论(0编辑  收藏  举报

前边在文章透彻理解最大似然估计,阐述如何理解最大似然进行参数估计,本文将讨论使用贝叶斯推理进行参数估计。我还将展示如何将此方法视为最大似然的概括,以及在何种情况下这两种方法是等价的。

贝叶斯定理

在介绍贝叶斯推理之前,有必要理解贝叶斯定理。贝叶斯定理真的很酷。使它有用的是它允许我们使用我们已有的一些知识或信念(通常称为先验)来帮助我们计算相关事件的概率。例如,如果我们想要在炎热和阳光明媚的日子里找到销售冰淇淋的概率,贝叶斯定理为我们提供了工具,可以使用先前的知识,了解在任何其他类型的一天销售冰淇淋的可能性(下雨,刮风,雪等)。我们稍后会详细讨论这个问题,所以如果你还没理解它,请不要担心。

数学定义

数学贝叶斯定理定义为:

 

其中A和B是事件,其中P(A|B)是在B发生的情况下A发生的可能性。和P(A)和P(B)分别是事件A和事件B的边际概率。

举例

数学定义通常会觉得太抽象和可怕,所以让我们试着通过一个例子来理解这一点。我在介绍性博客文章中给出的一个例子是从一包传统的扑克牌中挑选一张牌。包装中有52张卡片,其中26张为红色,26张为黑色。如果我们知道卡片是红色的,那么卡片为4的概率是多少?

为了将其转换为我们在上面看到的数学符号,我们可以说事件A是选择的卡片是4,事件B是卡片是红色的。因此,在我们的例子中,上式中的P(A | B)是P(4 | red),这是我们想要计算的。我们之前已经得出这个概率等于1/13(有26张红牌,其中2张是4),但让我们用贝叶斯定理来计算。

我们需要在等式右侧找到要求的概率。他们是:

P(B | A)= P(红色| 4)= 1/2P(A)= P(4)= 4/52 = 1/13P(B)= P(红色)= 1/2当我们将这些数字代入贝叶斯定理的方程时,得到1/13,这是我们期待的答案。

贝叶斯定理如何允许我们将先验信念纳入其中?

上面我提到贝叶斯定理允许我们结合先验信念,但很难看出它如何通过查看上面的等式来实现这一点。那么让我们看看我们如何使用上面的冰淇淋和天气示例来做到这一点。

让A代表我们出售冰淇淋的事件,B代表天气事件。那么考虑到天气的类型,我们可能会问在任何一天出售冰淇淋的概率是多少?在数学上,这被写为P(A =冰淇淋销售| B =天气类型),其等同于等式的左手侧。

右侧的P(A)是已知的先验表达式。在我们的例子中,这是P(A =冰淇淋销售),即出售冰淇淋的(边际)概率,无论外面的天气类型如何。P(A)被称为先验,因为我们可能已经知道出售冰淇淋的边际概率。例如,我可以查看一些数据,该数据显示,在某个商店的某个商店里,有30个人实际购买了冰淇淋。所以我的P(A =冰淇淋销售)= 30/100 = 0.3,在我了解天气之前。这就是贝叶斯定理允许我们合并先验信息的方法。

贝叶斯推理

定义

现在我们知道贝叶斯定理是什么以及如何使用它,我们可以开始回答什么是贝叶斯推理的问题?

首先,(统计)推断是从数据中推导出关于总体或概率分布的属性的过程。从一组观察到的数据点,我们确定了平均值的最大似然估计值。

因此,贝叶斯推断只是使用贝叶斯定理从数据中推导出有关种群或概率分布的属性的过程。

用贝叶斯定理和分布

到目前为止,我上面给出的例子在贝叶斯定理方程中的每个项都使用了单个数字。这意味着我们得到的答案也是单个数字。但是,有时单个数字可能不合适。

在上面的冰淇淋例子中,我们看到出售冰淇淋的先前概率是0.3。但是,如果0.3只是我最好的猜测,但我对这个值有点不确定。概率也可以是0.25或0.4。在这种情况下,我们先前的信念分布可能更合适(见下图)。这种分布称为先验分布。

 

两个个分布代表我们在任何一天销售冰淇淋的先验概率。蓝色和金色曲线的峰值出现在0.3的值附近,正如我们上面所说的那样,这是我们之前销售冰淇淋概率的最佳猜测。事实上f(x)与x的其他值不为零表明我们并不完全确定0.3是卖冰淇淋的真实价值。蓝色曲线显示它可能介于0和0.5之间,而黄金曲线显示它可能介于0和1之间。金色曲线更加分散并且峰值小于蓝色曲线的事实表示由金色曲线表示的先验概率对于真实值比蓝色曲线"不太确定"。

以类似的方式,我们可以使用分布来表示贝叶斯定理中的其他项。当我们处理模型时,我们主要需要使用分布。

贝叶斯定理的模型形式

在上面的贝叶斯定理的介绍性定义中,我使用了事件A和B,但是当在文献中陈述贝叶斯定理的模型形式时,经常使用不同的符号。我们来介绍一下吧。

代替事件A叫法,我们通常会用Θ,这个符号叫做Theta。Theta是我们感兴趣的,它代表了一组参数。因此,如果我们试图估计高斯分布的参数值,则Θ表示平均值μ和标准偏差σ(在数学上写为Θ= {μ,σ})。

代替事件B叫法,我们用数据y ={y1,y2,...,yn}。这些代表数据,即我们拥有的观察集。我将明确地使用等式中的数据来希望使等式变得不那么神秘。

所以现在贝叶斯模型形式的定理写成:

 

我们已经看到P(Θ)是先验分布。它代表了我们对参数真实价值的信念,就像我们的分布代表了我们对出售冰淇淋概率的看法一样。

左侧的P( Θ|data)称为后验分布。这是在我们计算右侧的所有内容并将观察到的数据考虑在内之后表示我们对参数值的信念的分布。

P(data|Θ )是我们之前讲到过的。如果你读过透彻理解最大似然估计,你会记得我们说L(data;μ,σ)是似然分布(对于高斯分布)。P(data|Θ )可能性分布。有时候它写成( Θ; data),但这里也是一样的

因此,我们可以通过使用我们提供的参数的先验信念计算出后验分布。

这为我们提供了足够的信息,可以使用贝叶斯推理进行参数推理的示例。但首先…

为什么我完全无视P(daga)?

那么,除了数据的边缘分布之外,它实际上并没有真正的名字,尽管它有时被称为证据。请记住,我们只对参数值感兴趣,但P(data)没有任何参考值。事实上,P(data)甚至不评估分布。这只是一个数字。我们已经观察了数据,因此我们可以计算P(data)。一般情况下,事实证明,计算P(data)是非常硬的和许多方法可用来计算它。有这样几种方法。

之所以P(data)重要,是因为出来的数字是标准化常数。概率分布的必要条件之一是事件的所有可能结果的总和等于1(例如,在6面骰子上滚动1,2,3,4,5或6的总概率是等于1)。归一化常数通过确保分布的总和等于1,成为真正的概率分布。

在某些情况下,我们不关心分布这个属性。我们只关心分布峰值出现的位置,无论分布是归一化。在这种情况下,许多人将贝叶斯定理的模型形式写为

 

这使得明确的是真正的后验分布不等于右侧,因为我们没有考虑归一化常数P(data)。

贝叶斯推理的例子

做得好到目前为止。所有这些理论都需要休息一下。但是让我们举一个推理可能派上用场的例子。我们将要使用的例子是计算出氢键的长度。你不需要知道什么是氢键。我只是用这个作为一个例子。

 

别担心,你不需要理解这个数字就能理解我们将要对贝叶斯推理进行的研究。

让我们假设氢键介于3.2 - 4.0之间(ngstrm,,是1等于0.1纳米的距离单位,所以我们谈论非常微小距离)。这些信息将形成我的先验信息。在概率分布方面,我将其重新表示为高斯分布,平均μ=3.6,标准偏差σ=0.2(见下图)。

氢键长度的先验概率

现在我们给出了一些数据(5个数据点是从平均3和标准偏差0.4的高斯分布中随机生成的。在现实世界中,这些数据将来自科学实验的结果)。我们可以从数据中导出似然分布,就像我们在上一篇关于最大似然的文章中所做的那样。假设数据是从可以用高斯分布描述的过程生成的,我们得到一个由下图中的黄金曲线表示的似然分布。请注意,5个数据点的平均值的最大似然估计值小于3(约2.8)

蓝色氢键距离的先验概率和来自5个金色数据点的可能性分布

现在我们有2个高斯分布,蓝色代表先验,金色代表可能性。我们不关心归一化常数,因此我们拥有计算非标准化后验分布所需的一切。回想一下,表示高斯概率密度的方程是

 

所以我们必须增加其中的2个。我不会在这里讲解数学,因为它变得非常混乱。如果您对数学感兴趣,那么您可以在的前看到它。得到的后验分布在下图中以粉红色显示。

通过乘以蓝色和金色分布产生的粉红色后验分布

现在我们得到氢键长度的后验分布,我们可以从中得出统计数据。例如,我们可以使用分布的来估计距离。或者我们可以计算方差来量化我们对结论的不确定性。从后验分布计算的最常见的统计数据之一是模式。这通常用作感兴趣参数的真实值的估计,并且被称为最大后验概率估计或简称为MAP估计。在这种情况下,后验分布也是高斯分布,因此平均值等于模式(和中值),并且氢键距离的MAP估计值在约3.2的分布峰值处。

结束语

为什么我总是使用高斯分布?

你会注意到,在我的所有涉及分布的示例中,我都使用高斯分布。其中一个主要原因是它使数学变得更容易。但是对于贝叶斯推理示例,它需要计算2个分布的乘积。我说这很乱,所以我没有讲解数学。但即使不自己做数学,我也知道后验是高斯分布。这是因为高斯分布具有使其易于使用的特定属性。这是结合自身相对于高斯似然函数。这意味着如果我将高斯先验分布与高斯似然函数相乘,我将得到高斯后验函数。后验和先验都来自同一分布族(它们都是高斯)的事实意味着它们被称为共轭分布。在这种情况下,先验分布称为共轭先验。

在许多推理情况下,选择可能性和先验,使得得到的分布是共轭的,因为它使得数学更容易。数据科学中的一个例子是,它是一种用于在几个文本文档中查找主题的无监督学习算法(称为语料库)。一个很好的介绍LDA是可以发现的埃德温·陈的博客。

在某些情况下,我们不能以这种方式选择先验或可能性,以便于计算后验分布。有时,可能性和/或先前分布看起来很可怕,并且用手计算后验并不容易或不可能。在这些情况下,我们可以使用不同的方法来计算后验分布。最常见的方法之一是使用一种称为马尔可夫链蒙特卡罗方法的技术。

当我们获得新数据时会发生什么?

贝叶斯推理的一个好处是你不需要大量的数据来使用它。观察足以更新先前的。事实上,贝叶斯框架允许您在数据进入时实时迭代地更新您的信念。它的工作原理如下:您事先相信某事(例如参数的值),然后您会收到一些数据。你可以像我们上面那样通过计算后验分布来更新你的信念。之后,我们得到了更多的数据。所以我们的后验成为新的先验。我们可以使用从新数据中获得的可能性来更新新的先验,并且我们再次获得新的后验。这个循环可以无限期地继续,所以你不断更新你的信念。

卡尔曼滤波就是一个很好的例子。它被用于许多场景,但数据科学中最引人注目的可能就是用于自动驾驶。在我攻读数学蛋白质晶体学博士期间,我使用了一种称为Unscented卡尔曼滤波器的变体。

使用先验作为常规者

我们在上面的氢键长度示例中生成的数据表明2.8是最佳估计值。但是,如果我们仅根据数据进行估算,我们可能会面临过度拟合的风险。如果数据收集过程出现问题,这将是一个巨大的问题。我们可以使用priors在贝叶斯框架中解决这个问题。在我们的例子中,使用以3.6为中心的高斯先验导致后验分布,其给出了氢键长度的MAP估计为3.2。这表明我们的先验可以在估计参数值时充当常规器。

可能性权重取决于两个分布之间的相对不确定性。在下图中,我们可以用图形方式看到这一点。颜色与上面相同,蓝色代表先验分布,金色代表可能性和粉红代表后验。在图中的左图中,您可以看到我们的先前(蓝色)比可能性(金色)的分散要小得多。因此,后验类似于先前的可能性。右图中的情况恰恰相反。

 

因此,如果我们希望增加参数的正则化,我们可以选择缩小与可能性相关的先验分布。

MAP估计何时等于最大似然估计?

当先前分布是均匀的时,MAP估计等于MLE。均匀分布的一个例子如下所示。

 

我们可以看到,均匀分布为x轴上的每个值赋予相同的权重(它是水平线)。直观地说,它表示缺乏关于哪些值最有可能的先验知识。在这种情况下,所有权重都被赋予似然函数,因此当我们将先验乘以可能性时,得到的后验与可能性完全相似。因此,最大似然法可以被视为MAP的特例。