最大后验概率估计(Maximum a Posteriori Estimation,MAPE)

维基百科，自由的百科全书

在统计学中，最大后验估计是根据经验数据获得对难以观察的量的点估计。它与最大似然估计中的经典方法有密切关系，但是它使用了一个增大的优化目标，这种方法将被估计量的先验分布融合到其中。所以最大后验估计可以看作是规则化（regularization）的最大似然估计。

假设我们需要根据观察数据 $x$ 估计没有观察到的总体参数 $\theta$ ，让 $f$ 作为 $x$ 的采样分布，这样 $f(x|\theta)$ 就是总体参数为 $\theta$ 时 $x$ 的概率。函数

$\theta \mapsto f(x | \theta) \!$

即为似然函数，其估计

$\hat{\theta}_{\mathrm{ML}}(x) = \arg\max_{\theta} f(x | \theta) \!$

就是 $\theta$ 的最大似然估计。

假设 $\theta$ 存在一个先验分布 $g$ ，这就允许我们将 $\theta$ 作为贝叶斯统计（en:Bayesian statistics）中的随机变量，这样 $\theta$ 的后验分布就是：

$\theta \mapsto \frac{f(x | \theta) \, g(\theta)}{\int_{\Theta} f(x | \theta') \, g(\theta') \, d\theta'} \!$

其中 $\Theta$ 是 $g$ 的domain，这是贝叶斯定理的直接应用。

最大后验估计方法于是估计 $\theta$ 为这个随机变量的后验分布的众数：

$\hat{\theta}_{\mathrm{MAP}}(x) = \arg\max_{\theta} \frac{f(x | \theta) \, g(\theta)} {\int_{\Theta} f(x | \theta') \, g(\theta') \, d\theta'} = \arg\max_{\theta} f(x | \theta) \, g(\theta) \!$

后验分布的分母与 $\theta$ 无关，所以在优化过程中不起作用。注意当前验 $g$ 是常数函数时最大后验估计与最大似然估计重合。

最大后验估计可以用以下几种方法计算：

解析方法，当后验分布的模能够用 closed form 方式表示的时候用这种方法。当使用en:conjugate prior 的时候就是这种情况。
通过如共扼积分法或者牛顿法这样的数值优化方法进行，这通常需要一阶或者导数，导数需要通过解析或者数值方法得到。
通过期望最大化算法的修改实现，这种方法不需要后验密度的导数。

尽管最大后验估计与 Bayesian 统计共享前验分布的使用，通常并不认为它是一种 Bayesian 方法，这是因为最大后验估计是点估计，然而 Bayesian 方法的特点是使用这些分布来总结数据、得到推论。Bayesian 方法试图算出后验均值或者中值以及posterior interval，而不是后验模。尤其是当后验分布没有一个简单的解析形式的时候更是这样：在这种情况下，后验分布可以使用 Markov chain Monte Carlo 技术来模拟，但是找到它的模的优化是很困难或者是不可能的。

最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似，但是最大的不同时，最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。

以下转载：http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html

首先，我们回顾上篇文章中的最大似然估计，假设 $x$为独立同分布的采样，$\theta$为模型参数，$f$为我们所使用的模型。那么最大似然估计可以表示为：