什么是极大似然估计(Maximum Likelihood Estimate, MLE)

 


1.理解

设总体有分布 f(x;θ1,,θk),X1,,Xn 为自这个总体总抽出的样本,则样本(X1,,Xn) 的分布(即其概率密度函数或概率函数)为

f(x1;θ1,,θk)f(x2;θ1,,θk)f(xn;θ1,,θk),

记为L(x1,,xn;θ1,,θk).
固定θ1,,θk, 而看作x1,,xn的函数时,L是一个概率密度函数或概率函数。可以这样理解:若

L(Y1,,Yn;θ1,,θk)>L(X1,,Xn;θ1,,θk)

则在观察时出现(Y1,,Yn) 这个点的可能性要比出现(X1,,Xn) 的可能性要大。
把这件事反过来说,可以这么想:当已观察到X1,,Xn 时,若

L(X1,,Xn;θ1,,θk)>L(X1,,Xn;θ1,,θk)

则被估计的参数(θ1,,θk)(θ1,,θk) 的可能性比它是θ1,,θk 的可能性要大。
X1,,X2 固定而把L看作θ1,,θk 的函数时,它称为“似然函数”。这个名称的意义,可根据上述分析得到理解:
这个还是对不同的(θ1,,θk) 的取值,反映了在观察结果(X1,,X2) 已知的条件下,(θ1,,θk) 的各种值的“似然程度”。
把观察值(X1,,X2)看作结果,而把参数值(θ1,,θk) 看成是导致这个结果的原因。现在已经有了结果,要反过来推算各种原因的概率
这里,参数(θ1,,θk) 有一定的值(虽然未知),并非事件或者随机变量,无概率可言,于是就改用“似然”这个词。

由上述分析就自然地导致以下的方法:应该用似然程度最大的那个点(θ1,,θk), 即满足条件

L(X1,,Xn;θ,,θk)=maxθ1,,θkL(X1,,Xn;θ1,,θk)

(θ1,,θk) 去作为(θ1,,θk)的估计值,因为在已得样本X1,,Xn 的条件下,这个“看起来最像”是真参数值。这个估计(θ1,,θk) 就叫做(θ1,,θk)的“极大似然估计”。如果要估计的是g(θ1,,θk),则g(θ1,,θk) 是它的极大似然估计。
因为

lnL=i=1nlnf(Xi;θ1,,θk),

且为使L达到最大,只需使lnL达到最大(它们是同单调的,而取对数是为了求导的时候将连乘转为连加),故在f对θ1,,θk 存在连续的偏导数时,可建立方程组(称为似然方程组):

lnLθi=0(i=1,,k).

如果这个方程组有唯一的解,又能验证它是一个极大值点,则它必是使L达到最大的点,即极大似然估计。

2. 参考

《概率论与数理统计(陈希孺)》
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

posted @   大师兄啊哈  阅读(303)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示