极大似然估计和最大后验概率估计

一、频率学派和贝叶斯派

他们认为世界是确定的。也就是说事件在多次重复实验中趋于一个稳定的值p，这个值就是该事件的概率。
参数估计方法-极大似然估计（MLE）
特点：这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

认为世界是不确定的，对世界先有一个预先的估计，然后通过获取的信息来不断调整之前的预估计。
参数估计方法-最大后验概率估计(MAP)
特点：在先验假设比较靠谱的情况下效果显著，随着数据量的增加，先验假设对于模型参数的主导作用会逐渐削弱，相反真实的数据样例会大大占据有利地位。

我们这有一个任务，就是根据已知的一堆数据样本，来推测产生该数据的模型的参数，即已知数据，推测模型和参数。因此根据两大派别的不同，对于模型的参数估计方法也有两类：极大似然估计与最大后验概率估计。

似然，可以简单理解为概率、可能性，也就是说要最大化该事件发生的可能性
含义：根据已知样本，希望通过调整模型参数来使得模型能够最大化样本情况出现的概率

注：最后这一行所优化的函数被称为Negative Log Likelihood (NLL)-负对数似然

假如一个盒子里面有红黑共10个球，每次有放回的取出，取了10次，结果为7次黑球，3次红球。问拿出黑球的概率 \(p\) 是多少？

\[P(A) = p^7*(1-p)^3 \]

含义：最大化在给定数据样本的情况下模型参数的后验概率
根据已知样本，来通过调整模型参数使得模型能够产生该数据样本的概率最大，只不过对于模型参数有了一个先验假设，
即模型参数可能满足某种分布，不再一味地依赖数据样例（万一数据量少或者数据不靠谱呢）。

抛一枚硬币10次，有10次正面朝上，0次反面朝上。问正面朝上的概率 \(\theta\)

频率学派：MLE求得\(\theta = 1.0\), 显然缺乏数据，MLE会产生很大的偏差。
贝叶斯派：先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布)，那么\(P(\theta|X)\)是一个分布，最大值位于0.5~1之间。
显然，随着数据量的增加，参数分布会更倾向于向数据靠拢，先验假设的影响会越来越小。

posted @ 2022-04-12 16:39 topbookcc 阅读(226) 评论(0) 收藏举报

刷新页面返回顶部