PT_参数估计_最大似然法
最大似然估计
-
likelihood(似然)
-
设样本 X 1 , X 2 , ⋯ , X n 来自总体 X , x 1 , x 2 , ⋯ , x n 是样本值 , θ 是待估计值 设样本X_1,X_2,\cdots,X_n来自总体X, x_1,x_2,\cdots,x_n是样本值,\theta是待估计值 设样本X1,X2,⋯,Xn来自总体X,x1,x2,⋯,xn是样本值,θ是待估计值
最大似然思想
- 例:
- A,B箱子均有100个球,A有99个白球,B只有1个白球
- 现在随机从A,B重抽取一个,发现是白球,称为白球 α \alpha α
- 这个白球
α
\alpha
α更可能来自那个箱子?
- 从直观上,应该来自于A箱子
- 应为从A中抽取白球的概率比从B中抽出白球的概率要大
- 白球来自于A更好的解释了抽中白球的事实
- 设
- θ 1 \theta_1 θ1表示白球 α \alpha α来自于A
- θ 2 \theta_2 θ2表示白球 α \alpha α来自于B
- 如果 θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2都是概率分布函数参数的估计,那么我们认为 θ 1 \theta_1 θ1更加合适
- 从直观上,应该来自于A箱子
- 最大似然是要从给定的事实出发,寻找一个能最好解释该事实的参数
- 通过观察样本值 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn,在参数 θ \theta θ所有可能取值中寻找一个看起来最好解释了该事实的那一个
似然函数
-
从下面的似然函数(似然方程)的定义中可以看到,它们是函数连乘的形式
-
另一方面,由于自然对数 ln x \ln{x} lnx单调递增函数,所以 L ( θ ) 与 ln L ( θ ) L(\theta)与\ln{L(\theta)} L(θ)与lnL(θ)在同一个地方取得最大值
-
意味着,求 ln L ( θ ) \ln{L(\theta)} lnL(θ)可以被分解加法的形式,使得求解计算过程更加容易
-
例如 : ln L ( θ ) = ln ∏ i = 1 n f ( x i ; θ ) = ∑ i = 1 n ln f ( x i ; θ ) d d θ ln ( L ( θ ) ) = ∑ i = 1 n 1 f ( x i ; θ ) ( d d x f ( x i ; θ ) ) 例如: \\ \ln{L(\theta)}=\ln{\prod_{i=1}^{n}f(x_i;\theta)}=\sum\limits_{i=1}^{n}\ln{f(x_i;\theta)} \\ \frac{\mathrm{d}}{\mathrm{d}\theta}\ln(L(\theta)) =\sum\limits_{i=1}^{n}\frac{1}{f(x_i;\theta)}(\frac{\mathrm{d}}{\mathrm{d}x}f(x_i;\theta)) 例如:lnL(θ)=lni=1∏nf(xi;θ)=i=1∑nlnf(xi;θ)dθdln(L(θ))=i=1∑nf(xi;θ)1(dxdf(xi;θ))
-
上面这个导数(求和形式)形式的似然函数可以直接使用
-
注意符合函数的求导
-
注意,似然函数的自变量是参数( θ \theta θ),而不是 x i x_i xi
-
虽然 x i x_i xi在最大似然估计中不是自变量,但是由于和累乘/累加( ∑ , ∏ \sum,\prod ∑,∏)相挂钩,不可以视为一般的常数提取出( ∑ , ∏ \sum,\prod ∑,∏)
-
可以称 x i x_i xi等带有遍历变量的表达式称为遍历表达式(通项)
-
而且建议使用字母A,B,C,来简化累乘/累积部分书写
-
-
-
-
-
-
离散型总体
-
设总体为 X , 其概率分布为 P ( X = a i ) = p ( a i ; θ ) , i = 1 , 2 , ⋯ 设总体为X,其概率分布为P(X=a_i)=p(a_i;\theta),i=1,2,\cdots 设总体为X,其概率分布为P(X=ai)=p(ai;θ),i=1,2,⋯
- L ( θ ) = L ( x 1 , x 2 , ⋯ , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) 为参数 θ 的似然函数 L(\theta)=L( x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta) \\为参数\theta的似然函数 L(θ)=L(x1,x2,⋯,xn;θ)=i=1∏np(xi;θ)为参数θ的似然函数
-
-
连续型总体
-
设总体为X,其概率密度为 f ( x ; θ ) f(x;\theta) f(x;θ)
- L ( θ ) = L ( x 1 , x 2 , ⋯ , x n ; θ ) = ∏ i = 1 n f ( x i ; θ ) 为参数 θ 的似然函数 L(\theta)=L( x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta) \\为参数\theta的似然函数 L(θ)=L(x1,x2,⋯,xn;θ)=i=1∏nf(xi;θ)为参数θ的似然函数
-
-
对于似然函数 L ( θ ) = L ( θ ; x ) 对于似然函数L(\theta)=L(\theta;x) 对于似然函数L(θ)=L(θ;x)
-
如果
对于已有观测值 ( 事实 ) : s 0 = x 1 , x 2 , ⋯ , x n L ( x 1 , x 2 , ⋯ , x n ; θ 1 ) > L ( x 1 , x 2 , ⋯ , x n ; θ 2 ) 则认为 θ 1 比 θ 2 ( 看上去 ) 能够更好的解释给定事实 s 0 对于已有观测值(事实):s_0=x_1,x_2,\cdots,x_n \\ L(x_1,x_2,\cdots,x_n;\theta_1)>L(x_1,x_2,\cdots,x_n;\theta_2) \\则认为\theta_1比\theta_2(看上去)能够更好的解释给定事实s_0 对于已有观测值(事实):s0=x1,x2,⋯,xnL(x1,x2,⋯,xn;θ1)>L(x1,x2,⋯,xn;θ2)则认为θ1比θ2(看上去)能够更好的解释给定事实s0 -
似然函数 L ( θ ) 刻画了 : 当样本观察值 ( 事实 ) 为 s 0 时 , 参数值取 θ 的可能性大小 似然函数L(\theta)刻画了:当样本观察值(事实)为s_0时,参数值取\theta的可能性大小 似然函数L(θ)刻画了:当样本观察值(事实)为s0时,参数值取θ的可能性大小
-
-
当试验结果为 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn的时候,导致该结果发生的最大似然函数值应该是 L ( θ ) 取最值 L M a x L(\theta)取最值L_{Max} L(θ)取最值LMax
似然方程
-
似然方程一侧为似然函数(或者似然函数对数)的导数,另一侧为0
- 是为了求的驻点!
-
d d θ L ( θ ) = 0 或 d d θ ln L ( θ ) = 0 \frac{\mathrm{d}}{\mathrm{d}\theta}L(\theta)=0 或 \\ \frac{\mathrm{d}}{\mathrm{d}\theta}\ln{L(\theta)}=0 dθdL(θ)=0或dθdlnL(θ)=0
-
双参数方程 ∂ ∂ θ i L ( θ i ) = 0 ; i = 1 , 2 或 ∂ ∂ θ i ln L ( θ i ) = 0 ; i = 1 , 2 双参数方程 \\\frac{\partial}{\partial\theta_i}L(\theta_i)=0;i=1,2 \\ 或 \\ \frac{\partial}{\partial\theta_i }\ln{L(\theta_i)}=0;i=1,2 双参数方程∂θi∂L(θi)=0;i=1,2或∂θi∂lnL(θi)=0;i=1,2
最大似然估计法
-
对于给定的样本值$ x_1,x_2,\cdots,x_n , 使得极大似然函数 ,使得极大似然函数 ,使得极大似然函数L(\theta)=L( x_1,x_2,\cdots,x_n;\theta) 达到最大值的参数值 达到最大值的参数值 达到最大值的参数值\hat{\theta}=\hat{\theta}(x_1,x_2,\cdots,x_n) , 称为未知参数 ,称为未知参数 ,称为未知参数\theta$的最大似然估计值;
-
L ( θ ^ ) = m a x ( L ( θ ) ) ; θ ∈ Θ Θ 为所有的 θ 可能取值 L(\hat\theta)=max(L(\theta));\theta\in{\Theta} \\\Theta为所有的\theta可能取值 L(θ^)=max(L(θ));θ∈ΘΘ为所有的θ可能取值
-
相应的, θ ^ = θ ^ ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n) θ^=θ^(X1,X2,⋯,Xn)称为最大似然估计量
-
步骤
-
确定分布律或者概率密度
-
建立似然方程
-
如果 L ( θ ) 或者 ln L ( θ ) L(\theta)或者\ln{L(\theta)} L(θ)或者lnL(θ)关于 θ \theta θ可微,值 θ ^ \hat{\theta} θ^往往可以从似然方程中求解:
-
似然方程不总是有效的:
-
使得 L ( θ ) 或 ln L ( θ ) L(\theta)或\ln{L(\theta)} L(θ)或lnL(θ)达到最大值的 θ ^ \hat{\theta} θ^不一定是驻点,
-
也就是说,驻点值未必是满足最大似然条件的值
这种情况下,需要另寻它法求解最大似然估计
-
-
-
案例(最大似然法)
离散型实例
-
设总体 X ∼ P ( λ ) ; λ > 0 是位置参数 ( X 1 , X 2 , ⋯ , X n ) 是 X 的样本 x 1 , x 2 , ⋯ , x 2 是样本的观察值 求 λ 的最大似然估计 λ ^ 设总体X\sim{P(\lambda)};\lambda>0是位置参数 \\(X_1,X_2,\cdots,X_n)是X的样本 \\x_1,x_2,\cdots,x_2是样本的观察值 \\求\lambda的最大似然估计\hat\lambda 设总体X∼P(λ);λ>0是位置参数(X1,X2,⋯,Xn)是X的样本x1,x2,⋯,x2是样本的观察值求λ的最大似然估计λ^
-
由 X ∼ P ( λ ) 可知 : 分布律 : p ( x ; λ ) = P ( X = x ) = λ x x ! e − λ ; x = 0 , 1 , 2 ⋯ 由X\sim{P(\lambda)}可知: \\分布律:p(x;\lambda)=P(X=x)=\frac{\lambda^x}{x!}e^{-\lambda};x=0,1,2\cdots 由X∼P(λ)可知:分布律:p(x;λ)=P(X=x)=x!λxe−λ;x=0,1,2⋯
-
从似然函数取对数到对数似然方程
- 似然函数 : L ( λ ) = ∏ i = 1 n p ( x i ; θ ) = ∏ i = 1 n 1 x i ! λ x i e − λ = 1 ∏ i = 1 n x i ! λ ∑ i = 1 n x i e − n λ = ( ∏ i = 1 n ( x i ! ) − 1 ) λ ∑ i = 1 n x i e − n λ 记 A = ∑ i = 1 n x i ; B = ∏ i = 1 n x i ! 则 L ( λ ) = B − 1 λ A e − n λ ln L ( λ ) = − ln B + A ln λ − n λ d d λ ln L ( λ ) = A λ − 1 − n \\似然函数: \\L(\lambda)=\prod_{i=1}^{n}p(x_i;\theta) =\prod_{i=1}^{n}\frac{1}{x_i!}\lambda^{x_i}e^{-\lambda} =\frac{1}{\prod\limits_{i=1}^{n}x_i!}\Large\lambda^{\scriptsize\sum\limits_{i=1}^{n}x_i}e^{-n\lambda} \\= ({\prod\limits_{i=1}^{n}(x_i!)^{-1}})\Large\lambda^{\scriptsize\sum\limits_{i=1}^{n}x_i}e^{-n\lambda} \\记A=\sum\limits_{i=1}^{n}x_i;B=\prod\limits_{i=1}^{n}x_i! \\则L(\lambda)=B^{-1}\lambda^Ae^{-n\lambda} \\\\ \ln{L(\lambda)}=-\ln{B}+A\ln{\lambda}-n\lambda \\ \frac{\mathrm{d}}{\mathrm{d}\lambda}\ln{L(\lambda)} =A\lambda^{-1}-n 似然函数:L(λ)=i=1∏np(xi;θ)=i=1∏nxi!1λxie−λ=i=1∏nxi!1λi=1∑nxie−nλ=(i=1∏n(xi!)−1)λi=1∑nxie−nλ记A=i=1∑nxi;B=i=1∏nxi!则L(λ)=B−1λAe−nλlnL(λ)=−lnB+Alnλ−nλdλdlnL(λ)=Aλ−1−n
-
建立方程:
-
d d λ ln L ( λ ) = 0 A λ − 1 − n = 0 λ = ( n A − 1 ) − 1 = n − 1 A = n − 1 ∑ i = 1 n x i = X ‾ \frac{\mathrm{d}}{\mathrm{d}\lambda}\ln{L(\lambda)}=0 \\A\lambda^{-1}-n=0 \\ \lambda=(nA^{-1})^{-1}=n^{-1}A=n^{-1}\sum\limits_{i=1}^{n}x_i=\overline{X} dλdlnL(λ)=0Aλ−1−n=0λ=(nA−1)−1=n−1A=n−1i=1∑nxi=X
-
直接建立方程:
- d d λ ln L ( λ ) = 0 = ∑ i = 1 n 1 f ( x i ; θ ) ( d d x f ( x i ; θ ) ) = ∑ i = 1 n ( 1 x i ! λ x i e − λ ) − 1 1 x i ! ( x i λ x i − 1 e − λ + λ x i e − λ ( − 1 ) ) = ∑ i = 1 n λ − x i ( x i λ x i − 1 − λ x i ) = ∑ i = 1 n ( x i λ − 1 − 1 ) = 0 λ − 1 ∑ i = 1 n x i − n = 0 λ = n − 1 ∑ i = 1 n x i = X ‾ \frac{\mathrm{d}}{\mathrm{d}\lambda}\ln{L(\lambda)}=0 \\ =\sum\limits_{i=1}^{n}\frac{1}{f(x_i;\theta)}(\frac{\mathrm{d}}{\mathrm{d}x}f(x_i;\theta)) \\=\sum\limits_{i=1}^{n}(\frac{1}{x_i!}\lambda^{x_i}e^{-\lambda})^{-1} \frac{1}{x_i!}(x_i\lambda^{x_i-1}e^{-\lambda}+\lambda^{x_i}e^{-\lambda}(-1)) \\=\sum\limits_{i=1}^{n}\lambda^{-x_i}(x_i\lambda^{x_i-1}-\lambda^{x_i}) =\sum\limits_{i=1}^{n}(x_i\lambda^{-1}-1) =0 \\ \lambda^{-1}\sum_{i=1}^{n}x_i-n=0 \\ \lambda=n^{-1}\sum_{i=1}^{n}x_i=\overline{X} dλdlnL(λ)=0=i=1∑nf(xi;θ)1(dxdf(xi;θ))=i=1∑n(xi!1λxie−λ)−1xi!1(xiλxi−1e−λ+λxie−λ(−1))=i=1∑nλ−xi(xiλxi−1−λxi)=i=1∑n(xiλ−1−1)=0λ−1i=1∑nxi−n=0λ=n−1i=1∑nxi=X
-
-
结果:
- 极大似然估计为 λ ^ = X ‾ \\极大似然估计为\hat{\lambda}=\overline{X} 极大似然估计为λ^=X
-
连续型实例
-
设总体 X ∼ N ( μ , σ 2 ) , ( X 1 , X 2 , ⋯ , X n ) 来自总体 X 的样本 ( x 1 , x 2 , ⋯ , x n ) 是样本观察值 求未知参数 μ , σ 2 的最大似然 设总体X\sim{N(\mu,\sigma^2)},(X_1,X_2,\cdots,X_n)来自总体X的样本 \\(x_1,x_2,\cdots,x_n)是样本观察值 \\求未知参数\mu,\sigma^2的最大似然 设总体X∼N(μ,σ2),(X1,X2,⋯,Xn)来自总体X的样本(x1,x2,⋯,xn)是样本观察值求未知参数μ,σ2的最大似然
-
此处未知参数有两个 , 令向量 : θ = ( μ , σ 2 ) 记 f ( x i ; θ ) = f ( x i ; ( μ , σ 2 ) ) = ( 2 π σ ) − 1 e − 1 2 ( x i − μ ) 2 σ 2 ln L ( θ ) = L ( μ , σ 2 ) = ∏ i = 1 n f ( x i ; θ ) = ( 2 π σ ) − n ∏ i = 1 n e − 1 2 ( x i − μ ) 2 σ 2 = ( 2 π σ ) − n e − 1 2 ( ∑ i = 1 n ( x i − μ ) 2 σ 2 ) 取对数 ln L ( θ ) = − n ln ( 2 π σ ) − 1 2 ( ∑ i = 1 n ( x i − μ ) 2 σ 2 ) = − n ln ( 2 π ) − n ln σ − 1 2 ( ∑ i = 1 n ( x i − μ ) 2 σ 2 ) = − n ln ( 2 π ) − 1 2 n ln σ 2 − 1 2 σ 2 ( ∑ i = 1 n ( x i − μ ) 2 ) 此处未知参数有两个,令向量:\theta=(\mu,\sigma^2) \\记f(x_i;\theta)=f(x_i;(\mu,\sigma^2)) =(\sqrt{2\pi}\sigma)^{-1}e^{-\frac{1}{2}\frac{(x_i-\mu)^2}{\sigma^2}} \\ \ln{L(\theta)}=L(\mu,\sigma^2)=\prod_{i=1}^{n}f(x_i;\theta) =(\sqrt{2\pi}\sigma)^{-n}\prod_{i=1}^{n}e^{-\frac{1}{2}\frac{(x_i-\mu)^2}{\sigma^2}} \\=(\sqrt{2\pi}\sigma)^{-n} e^{-\frac{1}{2}(\sum\limits_{i=1}^{n}\frac{(x_i-\mu)^2}{\sigma^2})} \\取对数 \\ \ln{L(\theta)} =-n\ln({\sqrt{2\pi}\sigma})-\frac{1}{2}(\sum\limits_{i=1}^{n}\frac{(x_i-\mu)^2}{\sigma^2}) \\=-n\ln({\sqrt{2\pi}})-n\ln{\sigma}-\frac{1}{2}(\sum\limits_{i=1}^{n}\frac{(x_i-\mu)^2}{\sigma^2}) \\=-n\ln({\sqrt{2\pi}})-\frac{1}{2}n\ln{\sigma^2}-\frac{1}{2\sigma^2}(\sum\limits_{i=1}^{n}(x_i-\mu)^2) 此处未知参数有两个,令向量:θ=(μ,σ2)记f(xi;θ)=f(xi;(μ,σ2))=(2πσ)−1e−21σ2(xi−μ)2lnL(θ)=L(μ,σ2)=i=1∏nf(xi;θ)=(2πσ)−ni=1∏ne−21σ2(xi−μ)2=(2πσ)−ne−21(i=1∑nσ2(xi−μ)2)取对数lnL(θ)=−nln(2πσ)−21(i=1∑nσ2(xi−μ)2)=−nln(2π)−nlnσ−21(i=1∑nσ2(xi−μ)2)=−nln(2π)−21nlnσ2−2σ21(i=1∑n(xi−μ)2)
-
求出驻点(求导,多个未知量求偏导)
-
∂ ∂ θ i ln L ( θ i ) = 0 ; i = 1 , 2 ∂ ∂ μ ln L ( θ ) = 0 ; i = 1 , 2 ∂ ∂ μ ln L ( θ ) = 0 + 0 − 1 2 σ 2 ( ∑ i = 1 n 2 ( x i − μ ) ( − 1 ) ) = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 ∑ i = 1 n ( x i − μ ) = 0 ∑ i = 1 n x i − ∑ i = 1 n μ = 0 μ = 1 n ∑ i = 1 n x i = X ‾ \frac{\partial}{\partial\theta_i }\ln{L(\theta_i)}=0;i=1,2 \\\\ \frac{\partial}{\partial\mu }\ln{L(\theta)}=0;i=1,2 \\\frac{\partial}{\partial\mu }\ln{L(\theta)}=0+0-\frac{1}{2\sigma^2}(\sum\limits_{i=1}^{n}2(x_i-\mu)(-1)) \\=\frac{1}{\sigma^2}\sum\limits_{i=1}^{n}(x_i-\mu)=0 \\ \sum\limits_{i=1}^{n}(x_i-\mu)=0 \\ \sum\limits_{i=1}^{n}x_i-\sum\limits_{i=1}^{n}\mu=0 \\ \mu=\frac{1}{n}\sum\limits_{i=1}^{n}x_i=\overline{X} ∂θi∂lnL(θi)=0;i=1,2∂μ∂lnL(θ)=0;i=1,2∂μ∂lnL(θ)=0+0−2σ21(i=1∑n2(xi−μ)(−1))=σ21i=1∑n(xi−μ)=0i=1∑n(xi−μ)=0i=1∑nxi−i=1∑nμ=0μ=n1i=1∑nxi=X
-
记 A = ∑ i = 1 n ( x i − μ ) 2 ∂ ∂ σ 2 ln L ( θ ) = A σ − 3 − 1 σ n = 0 σ 2 = 1 n A = 1 n ∑ i = 1 n ( x i − μ ) 2 = 1 n ∑ i = 1 n ( x i − X ‾ ) 2 记A=\sum\limits_{i=1}^{n}(x_i-\mu)^2 \\ \frac{\partial}{\partial\sigma^2 }\ln{L(\theta)} =A\sigma^{-3}-\frac{1}{\sigma}n=0 \\\sigma^2=\frac{1}{n}A =\frac{1}{n}\sum\limits_{i=1}^{n}(x_i-\mu)^2 =\frac{1}{n}\sum\limits_{i=1}^{n}(x_i-\overline{X})^2 记A=i=1∑n(xi−μ)2∂σ2∂lnL(θ)=Aσ−3−σ1n=0σ2=n1A=n1i=1∑n(xi−μ)2=n1i=1∑n(xi−X)2
-
-
结果:
μ ^ = X ‾ σ 2 ^ = 1 n ∑ i = 1 n ( x i − X ‾ ) 2 \hat{\mu}=\overline{X} \\ \hat{\sigma^2}=\frac{1}{n}\sum\limits_{i=1}^{n}(x_i-\overline{X})^2 μ^=Xσ2^=n1i=1∑n(xi−X)2
-
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
2021-11-03 powershell@posh主题设置和自定义@动态补全配置
2021-11-03 vscode_neovim(vim enhanced)配置与使用@通过变量$MYVIMRC来修改vim配置文件