最大似然估计和最大后验估计

似然估计

要理解什么是似然估计,我们需要知道在机器学习中我们需要通过样本来预测概率分布(离散随机变量)或者概率密度函数(连续随机变量),需要建模这样的概率分布和概率密度函数来对参数进行估计。

似然性(likehood)和概率(probability)他们之间存在关系,但是有着不同的意义。

  1. 似然性 [公式] 是指在样本x已知的情况下,参数为 [公式] 的可能性
  2. 概率 [公式] 为已知参数为 [公式] 的情况下,样本x发生的可能性

虽然其含义不同,但是在数学的计算上,仍然有 [公式] 。即我们如果知道了样本x,想要求[公式]的结果,我们需要从概率出发,假设参数为 [公式] 已知,去计算x发生的可能性,得到我们的似然性。

其中 [公式] 已知, [公式] 未知。若对于两个参数 [公式] , [公式] ,有

[公式]

那么意味着 [公式] 时,随机变量 [公式] 生成 [公式] 的概率大于当参数 [公式] 时。这也正是似然的意义所在,若观测数据为 [公式] ,那么 [公式] 是比 [公式] 更有可能为分布函数的参数。

  在不同的时候, [公式] 可以表示概率也可以用于计算似然,这里给出个人的理解,整理如下:

  • 在 [公式] 已知,[公式] 为变量的情况下,[公式] 为概率,表示通过已知的分布函数与参数,随机生成出 [公式] 的概率;
  • 在 [公式] 为变量,[公式] 已知的情况下,[公式] 为似然函数,它表示对于不同的 [公式] ,出现 [公式] 的概率是多少。此时可写成 [公式] ,更严格地,我们也可写成 [公式] 。

最大似然估计

知道了似然函数的含义和概率的联系与区别,我们来举个例子:

我们有一个袋子,有红球和黑球,放回的抽10次,已知抽出了3个红球,问抽出红球的概率是多少?显然这是一个离散的随机变量,我们需要求的是 [公式] 这个参数。我们先计算出抽出3个红球的概率为 [公式] ,这是概率 [公式] ,也是似然性 [公式] 。

最大似然估计要求我们需要在抽出三个红球的样本下的似然性最大,一阶导数为0可得 [公式] 。

 

最大后验估计

最大似然估计只关注当前的样本,也就是只关注当前发生的事情,不考虑事情的先验情况。由于计算简单,而且不需要关注先验知识。例如上述例子中如果抽出了10个红球,那么由最大似然估计可以得到抽出红球的概率为1.0,这就是在小样本中没有引入先验概率的结果,导致结果过于极端。

最大后验估计和贝叶斯定律息息相关:

[公式]

可以解释为 [公式] , [公式] 为我们上述介绍的似然函数

  • posterior:通过样本x得到参数的 [公式] 概率,也就是后验概率。
  • likehood:通过参数 [公式] 得到样本x的概率, [公式] 为我们上述介绍的似然函数。
  • prior:参数 [公式] 的先验概率,一般是根据人的先验知识来得出的。比如人们倾向于认为抛硬币实验会符合二项先验分布。
  • evidence: [公式] ,样本x发生的概率,是各种 [公式] 条件下发生的概率的积分。

和最大似然估计不同的是,最大后验估计中引入了先验概率(先验分布属于贝叶斯学派引入的,像L1,L2正则化就是对参数引入了拉普拉斯先验分布和高斯先验分布),而且最大后验估计要求的是

[公式] (P(x)由于事件已经发生,为一个常量。)

取对数,则为

[公式]

这个样子,求参数 [公式] 的最大后验概率,变成了也和求最大似然类似,只不过加上了一个先验概率的正则项。

posted @   loopchen  阅读(472)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示