最大似然估计和最大后验估计

似然估计

要理解什么是似然估计，我们需要知道在机器学习中我们需要通过样本来预测概率分布（离散随机变量）或者概率密度函数（连续随机变量），需要建模这样的概率分布和概率密度函数来对参数进行估计。

似然性（likehood）和概率（probability）他们之间存在关系，但是有着不同的意义。

似然性 $L(\theta \space| \space x)$ 是指在样本x已知的情况下，参数为 $\theta$ 的可能性
概率 $p(x \space | \space \theta)$ 为已知参数为 $\theta$ 的情况下，样本x发生的可能性

虽然其含义不同，但是在数学的计算上，仍然有 $L(\theta \space| \space x) = p(x \space| \space \theta)$ 。即我们如果知道了样本x，想要求 $L(\theta \space| \space x)$ 的结果，我们需要从概率出发，假设参数为 $\theta$ 已知，去计算x发生的可能性，得到我们的似然性。

其中 $x$ 已知， $\theta$ 未知。若对于两个参数 $\theta_1$ , $\theta_2$ ，有

$L(\theta_1|x)=p(x|\theta_1)>p(x|\theta_2)=L(\theta_2|x)\\$

那么意味着 $\theta=\theta_1$ 时，随机变量 $X$ 生成 $x$ 的概率大于当参数 $\theta=\theta_2$ 时。这也正是似然的意义所在，若观测数据为 $x$ ，那么 $\theta_1$ 是比 $\theta_2$ 更有可能为分布函数的参数。

　　在不同的时候， $p(x|\theta)$ 可以表示概率也可以用于计算似然，这里给出个人的理解，整理如下：

在 $\theta$ 已知， $x$ 为变量的情况下， $p(x|\theta)$ 为概率，表示通过已知的分布函数与参数，随机生成出 $x$ 的概率；
在 $\theta$ 为变量， $x$ 已知的情况下， $p(x|\theta)$ 为似然函数，它表示对于不同的 $\theta$ ，出现 $x$ 的概率是多少。此时可写成 $L(\theta|x)=p(x|\theta)$ ，更严格地，我们也可写成 $L(\theta|x)=p(x;\theta)$ 。

最大似然估计

知道了似然函数的含义和概率的联系与区别，我们来举个例子：

我们有一个袋子，有红球和黑球，放回的抽10次，已知抽出了3个红球，问抽出红球的概率是多少？显然这是一个离散的随机变量，我们需要求的是 $p(抽出红球) = w$ 这个参数。我们先计算出抽出3个红球的概率为 $w ^ 3 * (1-w) ^{7}$ ，这是概率 $p(抽出三个红球\space | \space w)$ ，也是似然性 $L(w \space | \space 抽出三个红球)$ 。

最大似然估计要求我们需要在抽出三个红球的样本下的似然性最大，一阶导数为0可得 $w \space = \space 0.3$ 。

最大后验估计

最大似然估计只关注当前的样本，也就是只关注当前发生的事情，不考虑事情的先验情况。由于计算简单，而且不需要关注先验知识。例如上述例子中如果抽出了10个红球，那么由最大似然估计可以得到抽出红球的概率为1.0，这就是在小样本中没有引入先验概率的结果，导致结果过于极端。

最大后验估计和贝叶斯定律息息相关：

$P(\theta \space | \space x)= \frac{P(x \space | \space \theta) * P(\theta)}{P(x)}$

可以解释为 $posterior = \frac{ likehood* prior}{evidence}$ ， $P(x \space | \space \theta)$ 为我们上述介绍的似然函数

posterior：通过样本x得到参数的 $\theta$ 概率，也就是后验概率。
likehood：通过参数 $\theta$ 得到样本x的概率， $P(x \space | \space \theta)$ 为我们上述介绍的似然函数。
prior：参数 $\theta$ 的先验概率，一般是根据人的先验知识来得出的。比如人们倾向于认为抛硬币实验会符合二项先验分布。
evidence： $P(x) = \int_{}^{}P(x|\theta)P(\theta) \space d\theta$ ，样本x发生的概率，是各种 $\theta$ 条件下发生的概率的积分。

和最大似然估计不同的是，最大后验估计中引入了先验概率（先验分布属于贝叶斯学派引入的，像L1，L2正则化就是对参数引入了拉普拉斯先验分布和高斯先验分布），而且最大后验估计要求的是

$argmax P(\theta | x) = argmax \frac{P(x \space | \space \theta) * P(\theta)}{P(x)} = argmax (P(x | \theta) * P(\theta)) = argmax (\prod_{i=1}^{n} P(x_i | \theta) * P(\theta))$ （P(x)由于事件已经发生，为一个常量。）

取对数，则为

$log \space P(\theta \space | \space x)= argmax( \space log(\sum_{i=1}^{n} {P(x_i | \theta))} +log\space P(\theta))$

这个样子，求参数 $\theta$ 的最大后验概率，变成了也和求最大似然类似，只不过加上了一个先验概率的正则项。

posted @ 2022-04-07 17:12 loopchen 阅读(604) 评论(0) 收藏举报

刷新页面返回顶部

loopchen

最大似然估计和最大后验估计

最大似然估计

最大后验估计

公告