最大似然估计——统计学(十一)

最大似然估计(Maximum Likelihood Estimation, MLE)是一种用于统计推断的方法,旨在通过给定的数据找到使观测数据出现概率最大的参数值。极大似然估计法(the Principle of Maximum Likelihood )由高斯和费希尔(R.A.Figher)先后提出,是被使用最广泛的一种参数估计方法,该方法建立的依据是直观的最大似然原理。通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。极大似然估计(Maximum likelihood estimation)可以简单理解为我们有一堆数据(数据之间是独立同分布的.iid),为了得到这些数据,我们设计了一个模型,极大似然估计就是求使模型能够得到这些数据的最大可能性的参数,这是一个统计(statistics)问题。

与概率(probability)的区别:概率是我们已知参数θ来预测结果,比如对于标准高斯分布XN(0,1),我们知道了确切的表达式,那么最终通过模型得到的结果我们大致也可以猜测到。但是对于统计问题,我们预先知道了结果,比如我们有10000个样本(他们可能服从某一分布,假设服从高斯分布),我们的目的就是估计μ&σ使得我们假设的模型能够最大概率的生成我们目前知道的样本。

一、问题引入

1.1 例1

假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?

很多人马上就有答案了:70%。而其后的理论支撑是什么呢?

我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。

这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是P(样本结果|Model)。如果第一次抽象的结果记为x1,第二次抽样的结果记为x2....那么样本结果为(x1,x2,...,x100)。这样,我们可以得到如下表达式:

P(|Model)  =P(x1,x2,...,x100|Model)  =P(x1|Model)P(x2|Model)P(x100|Model)  =p70(1p)30

好的,我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数,也就是求的式中的p
那么我们怎么来求这个p呢?不同的p,直接导致P|Model的不同。好的,我们的p实际上是有无数多种分布的。如下:

p(白球的比例) 1-p(黑球的比例) p(白球的比例) 1-p(黑球的比例)
50% 50% 70% 30%

那么问题来了,既然有无数种分布可以选择,极大似然估计应该按照什么原则去选取这个分布呢?
采取的方法是让这个样本结果出现的可能性最大,也就是使得p70(1p)30值最大,那么我们就可以看成是p的方程,求导即可!
那么既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。
我们想办法让观察样本出现的概率最大,转换为数学问题就是使得:
p70(1p)30最大,未知数只有一个p,我们令其导数为0,即可求出p为70%,与我们一开始认为的70%是一致的,其中蕴含的数学思想在里面。

1.2 例2

假设我们要统计全国人民的年均收入,首先假设这个收入服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的收入。我们国家有10几亿人口呢?那么岂不是没有办法了?
不不不,有了极大似然估计之后,我们可以采用嘛!我们比如选取一个城市,或者一个乡镇的人口收入,作为我们的观察样本结果。然后通过最大似然估计来获取上述假设中的正态分布的参数。
有了参数的结果后,我们就可以知道该正态分布的期望和方差了。也就是我们通过了一个小样本的采样,反过来知道了全国人民年收入的一系列重要的数学指标量!

二、似然函数

似然性(likelihood)与概率(possibility)同样可以表示事件发生的可能性大小,但是二者有着很大的区别:

概率p(x|θ)是在已知参数θ 的情况下,发生观测结果 x 可能性大小;
似然性L(θ|x) 则是从观测结果x出发,分布函数的参数为 θ的可能性大小。

可能听着不是那么好理解。似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性,用L表示,给定输出x时,关于参数θ的似然函数L(θ|x)在数值上等于给定参数θ后变量x的概率

L(θ|x)=P(X=x|θ)=p(x|θ)

其中x已知,θ未知。若对于两个参数θ1,θ2,有

L(θ1|x)=p(x|θ1)>p(x|θ2)=L(θ2|x)

那么意味着 θ=θ1时,随机变量 X生成x的概率大于当参数 θ=θ2 时。这也正是似然的意义所在,若观测数据为 x,那么 θ1是比θ2更有可能为分布函数的参数。在不同的时候,p(x|θ)可以表示概率也可以用于计算似然。

在统计学习中,我们有N个样本x1,x2,x3,...,xN,假设他们之间是相互独立的,那么似然函数

L(θ)=P(X1=x1,X2=x2,...,XN=xN)=i=1Np(Xi=xi)=i=1Np(xi,θ)

极大似然函数的目的就是求解一个θ使得L(θ)最大。

三、正态分布的最大似然估计(MLE)

这里用一维高斯分布来判断μσ2的无偏性及有偏性,一维正态高斯分布函数

f(x|θ)=f(x|μ,σ)=12πσ e(xμ)22σ2

其中最大似然估计MLEθ^=argmaxθ lnL(X|μ,σ)

(1)已知σ2,未知μ,求μ的最大似然估计量μ^

似然函数: L(Xμ)=i=1Np(xiμ)=i=1N12πσe(xiμ)22σ2
两边分别取对数: lnL(Xμ)=lni=1Np(xiμ)=N2ln(2π)Nlnσ12σ2i=1N(xiμ)2
两边对 μ 求导

dlnL(Xμ)dμ=i=1N1σ2(xiμ)=0i=1N(xiμ)=0i=1NxiNμ=0μ^=1Ni=1Nxi=X¯

可以发现,当σ2已知时,μ的最大似然估计量只受样本的影响, μ^μ 的无偏估计

E[μ^]=E[1Ni=1Nxi]=1Ni=1NE[xi]=1NNμ=μ

(2)已知μ,未知σ2,求σ2的最大似然估计量σ^2

似然函数:
L(Xσ2)=i=1Np(xiσ2)=i=1N12πσe(xiμ)22σ2
两边分别取对数:
lnL(Xσ2)=lni=1Np(xiσ2)=N2ln(2π)Nlnσ12σ2i=1N(xiμ)2 两边对 σ2 求导

dlnL(Xσ2)dσ2=i=1N1σ2(xiμ)=0N2σ2+12σ4i=1N(xiμ)2=0σ^2=1Ni=1N(xiμ)2

可以发现,当μ已知时,σ^2 的最大似然估计量 受到样本以及样本均值的影响, σ^2σ2 的无偏估计

E[σ^2]=E[1Ni=1N(xiμ)2]=E[1Ni=1Nxi21Ni=1N2xiμ+1Ni=1Nμ2]=E[1NNi=1xi22μ2+μ2]=E[1Ni=1Nxi2μ2]=1Ni=1N(E(xi2)E2(xi))=D(xi)=σ2

(3)μσ2均未知,求μσ2的最大似然估计量μ^σ^2

似然函数: L(Xμ,σ2)=i=1Np(xiμ,σ2)=i=1N12πσe(xiμ)22σ2
两边分别取对数: lnL(Xμ,σ2)=lni=1Np(xiμ,σ2)=N2ln(2π)Nlnσ12σ2i=1N(xiμ)2

  • 两边对 μ 求导

dlnL(Xμ)dμ=i=1N1σ2(xiμ)=0i=1N(xiμ)=0i=1NxiNμ=0μ^=1Ni=1Nxi=X¯

  • 两边对 σ2 求导

dlnL(Xσ2)dσ2=i=1N1σ2(xiμ)=0N2σ2+12σ4i=1N(xiμ)2=0σ^2=1Ni=1N(xiμ^)2=1Ni=1N(xiX¯)2

可以发现,当 μ 的最大似然估计量 μ^ 只受样本的影响(因为在计算时 σ2 被消去了), μ^μ 的无偏估计 E[μ^]=E[X¯]=E[1Ni=1Nxi]=1Ni=1NE[xi]=1NNμ=μ

但是在计算σ2的最大似然估计量σ^2不仅受到样本的影响,还受到μ的影响,其中μ未知,只能用计算出的μ^来替代,通过下面计算可以发现σ^2σ2的有偏估计

E[σ^2]=E[1Ni=1N(xiX¯)2]=E[1Ni=1Nxi21Ni=1N2xiX¯+1Ni=1NX¯2]=E[1NNi=1xi22X¯2+X¯2]=E{(1Ni=1Nxi2X¯2)(X¯2X¯2)}=E[(1Ni=1Nxi2X¯2)]E(X¯2X¯2)=1Ni=1N[E(xi2)E2(xi)][E(X¯2)E2(X¯)]=D(xi)D(X¯)=σ2σ2N=N1Nσ2

所以在计算样本的方差 S2 时,需要在在前面乘上一个系数,即 S2=NN1E[σ^2]

四、二项分布的最大似然估计(MLE)

4.1 似然函数的构造

二项分布(Binomial Distribution)的概率质量函数(PMF)定义如下:

P(X=k)=(nk)pk(1p)nk,k=0,1,2,,n

其中:

  • n 是试验次数(已知常数);
  • p 是单次试验成功的概率(待估参数);
  • k 是成功的次数;
  • (nk) 是二项系数,表示从 n 次试验中选取 k 次成功的方法数。

假设我们有 m 组独立观测数据 (X1,X2,,Xm),每个 Xi 都服从相同的二项分布 Bin(n,p)。则联合似然函数(Likelihood Function)为:

L(p)=i=1mP(Xi=ki)=i=1m(nki)pki(1p)nki

由于二项系数 (nki) 仅依赖于已知的 nki,它在参数 p 取不同值时保持不变,因此在最大化似然函数时可以忽略它,仅考虑:

L(p)i=1mpki(1p)nki

为了简化计算,我们通常对似然函数取对数,得到对数似然函数(Log-Likelihood Function):

(p)=i=1m(kilogp+(nki)log(1p))

4.2 计算导数并求解最大值

为了找到最大似然估计 p^,我们需要对 (p) 求导,并令其等于零:

ddp(p)=i=1m(kipnki1p)=0

整理得:

i=1mkip=i=1mnki1p

将求和符号展开:

i=1mkip=mni=1mki1p

S=i=1mki 表示所有样本中成功次数的总和,则方程变为:

Sp=mnS1p

交叉相乘:

S(1p)=(mnS)p

展开并整理:

SSp=mnpSp

S=mnp

p^=Smn

4.3 二阶导数验证极大值

为了验证 p^ 确实是极大值,我们计算二阶导数:

d2dp2(p)=i=1m(kip2nki(1p)2)

由于 p(0,1) 之间,上述二阶导数恒为负,因此 (p)p=p^ 处为极大值,即最大似然估计值。

4.4 结论与解释

二项分布的最大似然估计(MLE)为:

p^=i=1mXimn

即,MLE 估计值等于所有观测数据中成功次数的总和 S 除以所有试验的总数 mn。这表明,二项分布的最大似然估计值就是样本中成功的相对频率。最大似然估计的直觉是:我们希望找到一个 p 使得观察到的数据最有可能发生。而观察到的样本成功率 S/(mn) 就是对 p 的最佳估计,因为它直接反映了数据中的成功比例。

总结

如果总体X为离散型
假设分布率为P=p(x;θ)x是发生的样本,θ是待估计的参数,p(x;θ)表示估计参数为θ时,发生x的概率。那么当我们的样本值为:x1,x2,...,xn时,

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

其中L(θ)成为样本的似然函数。

假设

L(x1,x2,...,xn;θ^)=maxθΘL(x1,x2,...,xn;θ)

θ^使得L(θ)的取值最大,那么θ^就叫做参数θ的极大似然估计值。

如果总体X为连续型
和上面类似,只是概率密度为f(x;θ),替代p

解法
1)构造似然函数L(θ)
2)取对数:lnL(θ)
3) 求导,计算极值
4)解方程,得到θ
极大似然估计就是在只有概率的情况下,忽略低概率事件直接将高概率事件认为是真实事件的思想。

参考文献

  1. 搞懂极大似然估计
  2. 最大似然估计
  3. 参数估计(二).最大似然估计
posted @   郝hai  阅读(1370)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
点击右上角即可分享
微信分享提示