极大似然估计和最大后验概率估计

一、频率学派和贝叶斯派

1. 频率学派

他们认为世界是确定的。也就是说事件在多次重复实验中趋于一个稳定的值p,这个值就是该事件的概率。
参数估计方法-极大似然估计(MLE)
特点:这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

2. 贝叶斯学派

认为世界是不确定的,对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。
参数估计方法-最大后验概率估计(MAP)
特点:在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。

二、极大似然估计与最大后验概率估计

我们这有一个任务,就是根据已知的一堆数据样本,来推测产生该数据的模型的参数,即已知数据,推测模型和参数。因此根据两大派别的不同,对于模型的参数估计方法也有两类:极大似然估计与最大后验概率估计。

1. 极大似然估计

似然,可以简单理解为概率、可能性,也就是说要最大化该事件发生的可能性
含义:根据已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率

注:最后这一行所优化的函数被称为Negative Log Likelihood (NLL)-负对数似然

举一个小例子

假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球。问拿出黑球的概率 \(p\) 是多少?

  1. 我们假设7次黑球,3次红球为事件A,一个理所当然的想法就是既然事件A已经发生了,那么事件A发生的概率应该最大。

\[P(A) = p^7*(1-p)^3 \]

  1. 接下来,就是取对数,转化为累加,然后令导数为0,求得极值。p=0.7

2. 最大后验概率估计

含义:最大化在给定数据样本的情况下模型参数的后验概率
根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设
即模型参数可能满足某种分布,不再一味地依赖数据样例(万一数据量少或者数据不靠谱呢)。

抛硬币的例子

抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率 \(\theta\)

  • 频率学派:MLE求得\(\theta = 1.0\), 显然缺乏数据,MLE会产生很大的偏差。
  • 贝叶斯派:先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么\(P(\theta|X)\)是一个分布,最大值位于0.5~1之间。
  • 显然,随着数据量的增加,参数分布会更倾向于向数据靠拢,先验假设的影响会越来越小。

参考

posted @ 2022-04-12 16:39  topbookcc  阅读(187)  评论(0编辑  收藏  举报
/* 鼠标点击求赞文字特效 */