极大似然估计和最大后验概率估计
一、频率学派和贝叶斯派
1. 频率学派
他们认为世界是确定的。也就是说事件在多次重复实验中趋于一个稳定的值p,这个值就是该事件的概率。
参数估计方法-极大似然估计(MLE)
特点:这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。
2. 贝叶斯学派
认为世界是不确定的,对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。
参数估计方法-最大后验概率估计(MAP)
特点:在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。
二、极大似然估计与最大后验概率估计
我们这有一个任务,就是根据已知的一堆数据样本,来推测产生该数据的模型的参数,即已知数据,推测模型和参数。因此根据两大派别的不同,对于模型的参数估计方法也有两类:极大似然估计与最大后验概率估计。
1. 极大似然估计
似然,可以简单理解为概率、可能性,也就是说要最大化该事件发生的可能性
含义:根据已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率
注:最后这一行所优化的函数被称为Negative Log Likelihood (NLL)-负对数似然
举一个小例子
假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球。问拿出黑球的概率 \(p\) 是多少?
- 我们假设7次黑球,3次红球为事件A,一个理所当然的想法就是既然事件A已经发生了,那么事件A发生的概率应该最大。
\[P(A) = p^7*(1-p)^3
\]
- 接下来,就是取对数,转化为累加,然后令导数为0,求得极值。p=0.7
2. 最大后验概率估计
含义:最大化在给定数据样本的情况下模型参数的后验概率
根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,
即模型参数可能满足某种分布,不再一味地依赖数据样例(万一数据量少或者数据不靠谱呢)。
抛硬币的例子
抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率 \(\theta\)
- 频率学派:MLE求得\(\theta = 1.0\), 显然缺乏数据,MLE会产生很大的偏差。
- 贝叶斯派:先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么\(P(\theta|X)\)是一个分布,最大值位于0.5~1之间。
- 显然,随着数据量的增加,参数分布会更倾向于向数据靠拢,先验假设的影响会越来越小。