贝叶斯估计浅析

贝叶斯方法有着非常广泛的应用,但是初学者容易被里面的概率公式的给吓到,以至于望而却步。所以有大师专门写个tutorial,命名为“bayesian inference with tears”。 我本人也深受其苦,多次尝试学习而不得其门而入。终于有一天,一种醍醐灌顶的感觉在脑海中出现,思路一下子清晰了,原来bayes估计竟然是这么一回事。本blog只是为了让还处在痛苦的学习过程中的人能够快速把握概念,理清思路,高手请绕道而行 :)

贝叶斯估计要解决的是概率估计问题,也就是说,已知一些样本,他们满足某种分布,需要估计这种分布的参数或者新数据出现的概率。说到概率估计,就不能不先说说最大似然方法。最大似然是一种最基本的参数估计方法,相信学过概率的人都应该知道。最大似然就是寻找最可能的参数,使得这些采样样本出现的概率最大。举个简单的例子吧。假设一个盒子的高度h满足正态分布$N(h,1)$, 三次测量结果分别为 X={11,10.5,11.5} cm, 根据最大似然方法:
$$P(X|h) = \prod_{i=1}^{N}{p(x_i|h)} = \prod_{i=1}^{N}{\frac{1}{2\pi}exp{\{-\frac{(x_i-h)^2}{\sigma^2}\}}}$$

这里,

$$h=arg \max_h{P(X|h)} = arg \max_h{log P(X|h)} \\
 = arg \max_h{exp{\{\sum_{i=1}^{N}{(x_i-h)^2}\}}}$$
通过简单计算,可以得到h = 11cm,对新的测量的数据的可能出现概率,则由 $N(11,1)$给出。
最大似然估计是在对被估计量没有任何先验知识的前提下求得的。如果已知被估计参数满足某种分布,则需要用到最大后验估计。比如,在前面提到的例子中,假设h服从正态分布$N(10.5,1)$,要估计h的值,根据贝叶斯理论
$$P(h|X) = \frac{P(X|h)P(h)}{P(X)}$$
这里$P(X)$ 和我们要估计的参数无关,所以
$$h=arg \max_h{P(X|h)} = arg \max_h{P(X|h)P(h)} \\
  = arg \max_h{exp{\sum_{i=1}^{N}{(x_i-h)^2}+(h-10.5)^2}}$$
通过简单计算,可以得到 h= 10.875cm。根据MAP的结果,对新的测量的数据的可能出现概率,则由 $N(10.875,1)$给出。

贝叶斯估计其实要解决的不是如何去估计参数,而是如何估计新的测量数据的出现的概率的,但其过程并不需要要计算参数h,而是通过对h的积分得出:
$$P(x|h) = \int_{h \sim N(10.5,1)}{p(h|X)p(x|h)}dh$$
这个有点想求函数的数学期望。在实际应用中,为了便于计算,一般根据似然函数,对先验概率进行假设,从而使得先验分布和后验概率有相同的表达形式,这就涉及到共轭先验的概念。如果先验概率和似然函数的关系能够使得先验和后验概率有相同的函数形式,则可认为先验概率是似然函数的共轭先验。共轭先验在贝叶斯推理中有非常广泛的应用,很多问题都是通过共轭先验求解的。


posted on 2012-08-02 00:17  xueliangliu  阅读(16970)  评论(3编辑  收藏  举报

导航