最大似然估计

最大似然估计

最大似然估计(Maximum likelihood estimation)可以简单理解为我们有一堆数据(数据之间是独立同分布的.iid),为了得到这些数据,我们设计了一个模型,最大似然估计就是求使模型能够得到这些数据的最大可能性的参数,这是一个统计(statistics)问题

与概率(probability)的区别:概率是我们已知参数θ来预测结果,比如对于标准高斯分布XN(0,1),我们知道了确切的表达式,那么最终通过模型得到的结果我们大致也可以猜测到。但是对于统计问题,我们预先知道了结果,比如我们有10000个样本(他们可能服从某一分布,假设服从高斯分布),我们的目的就是估计μ&σ使得我们假设的模型能够最大概率的生成我们目前知道的样本

一、似然函数定义

似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性,用L表示,给定输出x时,关于参数θ的似然函数L(θ|x)在数值上等于给定参数θ后变量X的概率

L(θ|x)=P(X=x|θ)

在统计学习中,我们有N个样本x1,x2,x3...xN,假设他们之间是相互独立的,那么似然函数

L(θ)=P(X1=x1,X2=x2...XN=xN)=i=1Np(Xi=xi)=i=1Np(xi,θ)

最大似然函数的目的就是求解一个θ使得L(θ)最大化

二、最大似然估计的无偏性判断

这里用一维高斯分布来判断μσ2的无偏性及有偏性,一维高斯分布函数

f(x|θ)=f(x|μ,σ)=12πσe(xμ)22σ2

其中最大似然估计

MLEθ^=argmaxθ lnL(X|μ,σ)

分为三种情况

(1)已知σ2,未知μ,求μ的最大似然估计量μ^

似然函数:L(X|μ)=i=1Np(xi|μ)=i=1N12πσe(xiμ)22σ2

两边分别取对数:lnL(X|μ)=lni=1Np(xi|μ)=N2ln(2π)Nlnσ12σ2i=1N(xiμ)2

两边对μ求导

dlnL(X|μ)dμ=i=1N1σ2(xiμ)=0i=1N(xiμ)=0i=1NxiNμ=0μ^=1Ni=1Nxi=X¯

可以发现,当σ2已知时,μ的最大似然估计量只受样本的影响,μ^μ的无偏估计

E[μ^]=E[1Ni=1Nxi]=1Ni=1NE[xi]=1NNμ=μ

(2)已知μ,未知σ2,求σ2的最大似然估计量σ^2

似然函数:L(X|σ2)=i=1Np(xi|σ2)=i=1N12πσe(xiμ)22σ2

两边分别取对数:lnL(X|σ2)=lni=1Np(xi|σ2)=N2ln(2π)Nlnσ12σ2i=1N(xiμ)2

两边对σ2求导

dlnL(X|σ2)dσ2=i=1N1σ2(xiμ)=0N2σ2+12σ4i=1N(xiμ)2=0σ^2=1Ni=1N(xiμ)2

可以发现,当μ已知时,σ^2的最大似然估计量受到样本以及样本均值的影响,σ^2σ2的无偏估计

E[σ^2]=E[1Ni=1N(xiμ)2]=E[1Ni=1Nxi21Ni=1N2xiμ+1Ni=1Nμ2]=E[1NNi=1xi22μ2+μ2]=E[1Ni=1Nxi2μ2]=1Ni=1N(E(xi2)E2(xi))=D(xi)=σ2

(3)μσ2均未知,求μσ2的最大似然估计量μ^σ^2

似然函数:L(X|μ,σ2)=i=1Np(xi|μ,σ2)=i=1N12πσe(xiμ)22σ2

两边分别取对数:lnL(X|μ,σ2)=lni=1Np(xi|μ,σ2)=N2ln(2π)Nlnσ12σ2i=1N(xiμ)2

  • 两边对μ求导

dlnL(X|μ)dμ=i=1N1σ2(xiμ)=0i=1N(xiμ)=0i=1NxiNμ=0μ^=1Ni=1Nxi=X¯

  • 两边对σ2求导

dlnL(X|σ2)dσ2=i=1N1σ2(xiμ)=0N2σ2+12σ4i=1N(xiμ)2=0σ^2=1Ni=1N(xiμ^)2=1Ni=1N(xiX¯)2

可以发现,当μ的最大似然估计量μ^只受样本的影响(因为在计算时σ2被消去了),μ^μ的无偏估计

E[μ^]=E[X¯]=E[1Ni=1Nxi]=1Ni=1NE[xi]=1NNμ=μ

但是在计算σ2的最大似然估计量σ^2不仅受到样本的影响,还受到μ的影响,其中μ未知,只能用计算出的μ^来替代,通过下面计算可以发现σ^2σ2的有偏估计

E[σ^2]=E[1Ni=1N(xiX¯)2]=E[1Ni=1Nxi21Ni=1N2xiX¯+1Ni=1NX¯2]=E[1NNi=1xi22X¯2+X¯2]=E{(1Ni=1Nxi2X¯2)(X¯2X¯2)}=E[(1Ni=1Nxi2X¯2)]E(X¯2X¯2)=1Ni=1N[E(xi2)E2(xi)][E(X¯2)E2(X¯)]=D(xi)D(X¯)=σ2σ2N=N1Nσ2

所以在计算样本的方差S2时,需要在在前面乘上一个系数,即S2=NN1E[σ^2]

三、最大似然和最小二乘的关系

当数据为高斯分布时,最大似然和最小二乘相同

假设一个模型为线性回归模型,噪声为高斯噪声

已知fθ(x)=f(y|x,w)=i=1NxiwiT+ϵ=xwT+ϵ,设ϵiN(0,σ2)f(yi|xi,wi)=yiN(xiwiT,σ2)

由上面推导的最大似然函数求解:argmaxw lnL(w)=lni=1Np(yi|xi,wi)=N2ln(2π)Nlnσ12σ2i=1N(yixiwiT)2

由于前两项都与w无关,因此可以将上式简化为:argmaxw lnL(w)=12σ2i=1N(yixiwiT)2i=1N(yixiwiT)2

而最小二乘法的公式也是如此:argminw f(w)=i=1N(yixiwiT)2=||YXWT||22

posted @   harrytea  阅读(994)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示