在机器学习领域,概率估计是经常用到的一种模型,而概率估计中,我们经常会看到两种估计模型,一种是最大似然估计,即 Maximum likelihood, 另外一种就是最大后验概率估计,即 Maximum posterior , 两种模型可以由贝叶斯定理演化而来。
在介绍这两种模型之前,我们先来看一下贝叶斯定理:
p(w|D)=p(D|w)p(w)p(D)
这里,D 表示观察到的数据,而 w 表示我们要求的变量或者参数。我们来看看贝叶斯定理中,每一项所表示的含义:
p(D) 表示数据的概率分布
p(w) 表示参数w 的概率分布,一般称为先验概率分布,因为我们本意是要求 w 的,所以理论上来说,我们无法事先确切地知道 w 的概率分布,但是我们可以给出一个大概的经验估计,所以称为先验分布 prior distribution。
p(D|w) 表示似然函数 likelihood function。
p(w|D) 表示后验概率分布 posterior distribution。
p(D|w) 表示了一种 “似然率”, 对于不同的参数w, 我们观测到数据D 的概率是不同的, 最大似然估计, 就是找到 w, 使得我们观测到数据D 的概率最大。所以最大似然估计可以表示为:
maxwp(D|w)
p(w|D) 表示后验概率,如果给定了观测数据, 我们可以推测参数w 的概率分布, 根据贝叶斯定理,我们可以看出:
posterior∝likelihood×prior
即:
p(w|D)∝p(D|w)×p(w)
而贝叶斯定理中的分母 p(D) 是一个归一化变量, 可以看出
p(D)=∫p(D|w)p(w)dw
换句话说,后验概率与似然函数和先验概率之积是成比例的。
我们可以看到,无论是最大似然估计还是最大后验概率估计,似然函数都发挥着重要作用。但这两种估计,反应了两种观点。最大似然估计是古典统计学派的观点,古典统计学派认为,参数w 是固定的,可以通过观测到的数据直接求出来。而最大后验概率估计是贝叶斯学派的观点,贝叶斯学派认为,只有数据是可见的,参数w 也是不固定的,而是满足一定概率分布 p(w|D) 的。
这两种模型,孰优孰劣,一直以来都是莫衷一是,未有定论。最大似然估计被人诟病之处是估计存在bias,在某些极端情况下,是违反经验与直觉的。最大后验概率估计可以有效地减弱这种bias,但是最大后验概率需要引入先验概率分布 p(w), 所以最大后验概率估计的效果,也取决于先验概率的设定,一个糟糕的先验概率将会导致一个糟糕的后验概率估计。
>
Andrew Ng, “Machine Learning”, Stanford University.
C.M.Bishop, “Pattern Recognition and Machine Learning”.