最大似然估计和最大后验估计
似然估计
要理解什么是似然估计,我们需要知道在机器学习中我们需要通过样本来预测概率分布(离散随机变量)或者概率密度函数(连续随机变量),需要建模这样的概率分布和概率密度函数来对参数进行估计。
似然性(likehood)和概率(probability)他们之间存在关系,但是有着不同的意义。
- 似然性
是指在样本x已知的情况下,参数为
的可能性
- 概率
为已知参数为
的情况下,样本x发生的可能性
虽然其含义不同,但是在数学的计算上,仍然有 。即我们如果知道了样本x,想要求
的结果,我们需要从概率出发,假设参数为
已知,去计算x发生的可能性,得到我们的似然性。
其中 已知,
未知。若对于两个参数
,
,有
那么意味着 时,随机变量
生成
的概率大于当参数
时。这也正是似然的意义所在,若观测数据为
,那么
是比
更有可能为分布函数的参数。
在不同的时候, 可以表示概率也可以用于计算似然,这里给出个人的理解,整理如下:
- 在
已知,
为变量的情况下,
为概率,表示通过已知的分布函数与参数,随机生成出
的概率;
- 在
为变量,
已知的情况下,
为似然函数,它表示对于不同的
,出现
的概率是多少。此时可写成
,更严格地,我们也可写成
。
最大似然估计
知道了似然函数的含义和概率的联系与区别,我们来举个例子:
我们有一个袋子,有红球和黑球,放回的抽10次,已知抽出了3个红球,问抽出红球的概率是多少?显然这是一个离散的随机变量,我们需要求的是 这个参数。我们先计算出抽出3个红球的概率为
,这是概率
,也是似然性
。
最大似然估计要求我们需要在抽出三个红球的样本下的似然性最大,一阶导数为0可得 。
最大后验估计
最大似然估计只关注当前的样本,也就是只关注当前发生的事情,不考虑事情的先验情况。由于计算简单,而且不需要关注先验知识。例如上述例子中如果抽出了10个红球,那么由最大似然估计可以得到抽出红球的概率为1.0,这就是在小样本中没有引入先验概率的结果,导致结果过于极端。
最大后验估计和贝叶斯定律息息相关:
可以解释为 ,
为我们上述介绍的似然函数
- posterior:通过样本x得到参数的
概率,也就是后验概率。
- likehood:通过参数
得到样本x的概率,
为我们上述介绍的似然函数。
- prior:参数
的先验概率,一般是根据人的先验知识来得出的。比如人们倾向于认为抛硬币实验会符合二项先验分布。
- evidence:
,样本x发生的概率,是各种
条件下发生的概率的积分。
和最大似然估计不同的是,最大后验估计中引入了先验概率(先验分布属于贝叶斯学派引入的,像L1,L2正则化就是对参数引入了拉普拉斯先验分布和高斯先验分布),而且最大后验估计要求的是
(P(x)由于事件已经发生,为一个常量。)
取对数,则为
这个样子,求参数 的最大后验概率,变成了也和求最大似然类似,只不过加上了一个先验概率的正则项。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)