PT_参数估计_最大似然法

最大似然估计

  • likelihood(似然)

  • 设样本 X 1 , X 2 , ⋯   , X n 来自总体 X , x 1 , x 2 , ⋯   , x n 是样本值 , θ 是待估计值 设样本X_1,X_2,\cdots,X_n来自总体X, x_1,x_2,\cdots,x_n是样本值,\theta是待估计值 设样本X1,X2,,Xn来自总体X,x1,x2,,xn是样本值,θ是待估计值

最大似然思想

  • 例:
    • A,B箱子均有100个球,A有99个白球,B只有1个白球
    • 现在随机从A,B重抽取一个,发现是白球,称为白球 α \alpha α
    • 这个白球 α \alpha α更可能来自那个箱子?
      • 从直观上,应该来自于A箱子
        • 应为从A中抽取白球的概率比从B中抽出白球的概率要大
      • 白球来自于A更好的解释了抽中白球的事实
        • θ 1 \theta_1 θ1表示白球 α \alpha α来自于A
        • θ 2 \theta_2 θ2表示白球 α \alpha α来自于B
        • 如果 θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2都是概率分布函数参数的估计,那么我们认为 θ 1 \theta_1 θ1更加合适
  • 最大似然是要从给定的事实出发,寻找一个能最好解释该事实的参数
    • 通过观察样本值 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn,在参数 θ \theta θ所有可能取值中寻找一个看起来最好解释了该事实的那一个
似然函数
  • 从下面的似然函数(似然方程)的定义中可以看到,它们是函数连乘的形式

    • 另一方面,由于自然对数 ln ⁡ x \ln{x} lnx单调递增函数,所以 L ( θ ) 与 ln ⁡ L ( θ ) L(\theta)与\ln{L(\theta)} L(θ)lnL(θ)在同一个地方取得最大值

    • 意味着,求 ln ⁡ L ( θ ) \ln{L(\theta)} lnL(θ)可以被分解加法的形式,使得求解计算过程更加容易

      • 例如 : ln ⁡ L ( θ ) = ln ⁡ ∏ i = 1 n f ( x i ; θ ) = ∑ i = 1 n ln ⁡ f ( x i ; θ ) d d θ ln ⁡ ( L ( θ ) ) = ∑ i = 1 n 1 f ( x i ; θ ) ( d d x f ( x i ; θ ) ) 例如: \\ \ln{L(\theta)}=\ln{\prod_{i=1}^{n}f(x_i;\theta)}=\sum\limits_{i=1}^{n}\ln{f(x_i;\theta)} \\ \frac{\mathrm{d}}{\mathrm{d}\theta}\ln(L(\theta)) =\sum\limits_{i=1}^{n}\frac{1}{f(x_i;\theta)}(\frac{\mathrm{d}}{\mathrm{d}x}f(x_i;\theta)) 例如:lnL(θ)=lni=1nf(xi;θ)=i=1nlnf(xi;θ)dθdln(L(θ))=i=1nf(xi;θ)1(dxdf(xi;θ))

        • 上面这个导数(求和形式)形式的似然函数可以直接使用

          • 注意符合函数的求导

          • 注意,似然函数的自变量是参数( θ \theta θ),而不是 x i x_i xi

          • 虽然 x i x_i xi在最大似然估计中不是自变量,但是由于和累乘/累加( ∑ , ∏ \sum,\prod ,)相挂钩,不可以视为一般的常数提取出( ∑ , ∏ \sum,\prod ,)

            • 可以称 x i x_i xi等带有遍历变量的表达式称为遍历表达式(通项)

            • 而且建议使用字母A,B,C,来简化累乘/累积部分书写

  • 离散型总体

    • 设总体为 X , 其概率分布为 P ( X = a i ) = p ( a i ; θ ) , i = 1 , 2 , ⋯ 设总体为X,其概率分布为P(X=a_i)=p(a_i;\theta),i=1,2,\cdots 设总体为X,其概率分布为P(X=ai)=p(ai;θ),i=1,2,

      • L ( θ ) = L ( x 1 , x 2 , ⋯   , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) 为参数 θ 的似然函数 L(\theta)=L( x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta) \\为参数\theta的似然函数 L(θ)=L(x1,x2,,xn;θ)=i=1np(xi;θ)为参数θ的似然函数
  • 连续型总体

    • 设总体为X,其概率密度为 f ( x ; θ ) f(x;\theta) f(x;θ)

      • L ( θ ) = L ( x 1 , x 2 , ⋯   , x n ; θ ) = ∏ i = 1 n f ( x i ; θ ) 为参数 θ 的似然函数 L(\theta)=L( x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta) \\为参数\theta的似然函数 L(θ)=L(x1,x2,,xn;θ)=i=1nf(xi;θ)为参数θ的似然函数
  • 对于似然函数 L ( θ ) = L ( θ ; x ) 对于似然函数L(\theta)=L(\theta;x) 对于似然函数L(θ)=L(θ;x)

    • 如果
      对于已有观测值 ( 事实 ) : s 0 = x 1 , x 2 , ⋯   , x n L ( x 1 , x 2 , ⋯   , x n ; θ 1 ) > L ( x 1 , x 2 , ⋯   , x n ; θ 2 ) 则认为 θ 1 比 θ 2 ( 看上去 ) 能够更好的解释给定事实 s 0 对于已有观测值(事实):s_0=x_1,x_2,\cdots,x_n \\ L(x_1,x_2,\cdots,x_n;\theta_1)>L(x_1,x_2,\cdots,x_n;\theta_2) \\则认为\theta_1比\theta_2(看上去)能够更好的解释给定事实s_0 对于已有观测值(事实):s0=x1,x2,,xnL(x1,x2,,xn;θ1)>L(x1,x2,,xn;θ2)则认为θ1θ2(看上去)能够更好的解释给定事实s0

    • 似然函数 L ( θ ) 刻画了 : 当样本观察值 ( 事实 ) 为 s 0 时 , 参数值取 θ 的可能性大小 似然函数L(\theta)刻画了:当样本观察值(事实)为s_0时,参数值取\theta的可能性大小 似然函数L(θ)刻画了:当样本观察值(事实)s0,参数值取θ的可能性大小

  • 当试验结果为 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn的时候,导致该结果发生的最大似然函数值应该是 L ( θ ) 取最值 L M a x L(\theta)取最值L_{Max} L(θ)取最值LMax

似然方程
  • 似然方程一侧为似然函数(或者似然函数对数)的导数,另一侧为0

    • 是为了求的驻点!
  • d d θ L ( θ ) = 0 或 d d θ ln ⁡ L ( θ ) = 0 \frac{\mathrm{d}}{\mathrm{d}\theta}L(\theta)=0 或 \\ \frac{\mathrm{d}}{\mathrm{d}\theta}\ln{L(\theta)}=0 dθdL(θ)=0dθdlnL(θ)=0

  • 双参数方程 ∂ ∂ θ i L ( θ i ) = 0 ; i = 1 , 2 或 ∂ ∂ θ i ln ⁡ L ( θ i ) = 0 ; i = 1 , 2 双参数方程 \\\frac{\partial}{\partial\theta_i}L(\theta_i)=0;i=1,2 \\ 或 \\ \frac{\partial}{\partial\theta_i }\ln{L(\theta_i)}=0;i=1,2 双参数方程θiL(θi)=0;i=1,2θilnL(θi)=0;i=1,2

最大似然估计法

  • 对于给定的样本值$ x_1,x_2,\cdots,x_n , 使得极大似然函数 ,使得极大似然函数 ,使得极大似然函数L(\theta)=L( x_1,x_2,\cdots,x_n;\theta) 达到最大值的参数值 达到最大值的参数值 达到最大值的参数值\hat{\theta}=\hat{\theta}(x_1,x_2,\cdots,x_n) , 称为未知参数 ,称为未知参数 ,称为未知参数\theta$的最大似然估计值;

    • L ( θ ^ ) = m a x ( L ( θ ) ) ; θ ∈ Θ Θ 为所有的 θ 可能取值 L(\hat\theta)=max(L(\theta));\theta\in{\Theta} \\\Theta为所有的\theta可能取值 L(θ^)=max(L(θ));θΘΘ为所有的θ可能取值

    • 相应的, θ ^ = θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n) θ^=θ^(X1,X2,,Xn)称为最大似然估计量

步骤
  • 确定分布律或者概率密度

  • 建立似然方程

  • 如果 L ( θ ) 或者 ln ⁡ L ( θ ) L(\theta)或者\ln{L(\theta)} L(θ)或者lnL(θ)关于 θ \theta θ可微,值 θ ^ \hat{\theta} θ^往往可以从似然方程中求解:

    • 似然方程不总是有效的:

      • 使得 L ( θ ) 或 ln ⁡ L ( θ ) L(\theta)或\ln{L(\theta)} L(θ)lnL(θ)达到最大值的 θ ^ \hat{\theta} θ^不一定是驻点,

        • 也就是说,驻点值未必是满足最大似然条件的值

          这种情况下,需要另寻它法求解最大似然估计

案例(最大似然法)

离散型实例
  • 设总体 X ∼ P ( λ ) ; λ > 0 是位置参数 ( X 1 , X 2 , ⋯   , X n ) 是 X 的样本 x 1 , x 2 , ⋯   , x 2 是样本的观察值 求 λ 的最大似然估计 λ ^ 设总体X\sim{P(\lambda)};\lambda>0是位置参数 \\(X_1,X_2,\cdots,X_n)是X的样本 \\x_1,x_2,\cdots,x_2是样本的观察值 \\求\lambda的最大似然估计\hat\lambda 设总体XP(λ);λ>0是位置参数(X1,X2,,Xn)X的样本x1,x2,,x2是样本的观察值λ的最大似然估计λ^

    • 由 X ∼ P ( λ ) 可知 : 分布律 : p ( x ; λ ) = P ( X = x ) = λ x x ! e − λ ; x = 0 , 1 , 2 ⋯ 由X\sim{P(\lambda)}可知: \\分布律:p(x;\lambda)=P(X=x)=\frac{\lambda^x}{x!}e^{-\lambda};x=0,1,2\cdots XP(λ)可知:分布律:p(x;λ)=P(X=x)=x!λxeλ;x=0,1,2

    • 从似然函数取对数到对数似然方程

      • 似然函数 : L ( λ ) = ∏ i = 1 n p ( x i ; θ ) = ∏ i = 1 n 1 x i ! λ x i e − λ = 1 ∏ i = 1 n x i ! λ ∑ i = 1 n x i e − n λ = ( ∏ i = 1 n ( x i ! ) − 1 ) λ ∑ i = 1 n x i e − n λ 记 A = ∑ i = 1 n x i ; B = ∏ i = 1 n x i ! 则 L ( λ ) = B − 1 λ A e − n λ ln ⁡ L ( λ ) = − ln ⁡ B + A ln ⁡ λ − n λ d d λ ln ⁡ L ( λ ) = A λ − 1 − n \\似然函数: \\L(\lambda)=\prod_{i=1}^{n}p(x_i;\theta) =\prod_{i=1}^{n}\frac{1}{x_i!}\lambda^{x_i}e^{-\lambda} =\frac{1}{\prod\limits_{i=1}^{n}x_i!}\Large\lambda^{\scriptsize\sum\limits_{i=1}^{n}x_i}e^{-n\lambda} \\= ({\prod\limits_{i=1}^{n}(x_i!)^{-1}})\Large\lambda^{\scriptsize\sum\limits_{i=1}^{n}x_i}e^{-n\lambda} \\记A=\sum\limits_{i=1}^{n}x_i;B=\prod\limits_{i=1}^{n}x_i! \\则L(\lambda)=B^{-1}\lambda^Ae^{-n\lambda} \\\\ \ln{L(\lambda)}=-\ln{B}+A\ln{\lambda}-n\lambda \\ \frac{\mathrm{d}}{\mathrm{d}\lambda}\ln{L(\lambda)} =A\lambda^{-1}-n 似然函数:L(λ)=i=1np(xi;θ)=i=1nxi!1λxieλ=i=1nxi!1λi=1nxie=(i=1n(xi!)1)λi=1nxieA=i=1nxi;B=i=1nxi!L(λ)=B1λAelnL(λ)=lnB+AlnλdλdlnL(λ)=Aλ1n
    • 建立方程:

      • d d λ ln ⁡ L ( λ ) = 0 A λ − 1 − n = 0 λ = ( n A − 1 ) − 1 = n − 1 A = n − 1 ∑ i = 1 n x i = X ‾ \frac{\mathrm{d}}{\mathrm{d}\lambda}\ln{L(\lambda)}=0 \\A\lambda^{-1}-n=0 \\ \lambda=(nA^{-1})^{-1}=n^{-1}A=n^{-1}\sum\limits_{i=1}^{n}x_i=\overline{X} dλdlnL(λ)=0Aλ1n=0λ=(nA1)1=n1A=n1i=1nxi=X

      • 直接建立方程:

        • d d λ ln ⁡ L ( λ ) = 0 = ∑ i = 1 n 1 f ( x i ; θ ) ( d d x f ( x i ; θ ) ) = ∑ i = 1 n ( 1 x i ! λ x i e − λ ) − 1 1 x i ! ( x i λ x i − 1 e − λ + λ x i e − λ ( − 1 ) ) = ∑ i = 1 n λ − x i ( x i λ x i − 1 − λ x i ) = ∑ i = 1 n ( x i λ − 1 − 1 ) = 0 λ − 1 ∑ i = 1 n x i − n = 0 λ = n − 1 ∑ i = 1 n x i = X ‾ \frac{\mathrm{d}}{\mathrm{d}\lambda}\ln{L(\lambda)}=0 \\ =\sum\limits_{i=1}^{n}\frac{1}{f(x_i;\theta)}(\frac{\mathrm{d}}{\mathrm{d}x}f(x_i;\theta)) \\=\sum\limits_{i=1}^{n}(\frac{1}{x_i!}\lambda^{x_i}e^{-\lambda})^{-1} \frac{1}{x_i!}(x_i\lambda^{x_i-1}e^{-\lambda}+\lambda^{x_i}e^{-\lambda}(-1)) \\=\sum\limits_{i=1}^{n}\lambda^{-x_i}(x_i\lambda^{x_i-1}-\lambda^{x_i}) =\sum\limits_{i=1}^{n}(x_i\lambda^{-1}-1) =0 \\ \lambda^{-1}\sum_{i=1}^{n}x_i-n=0 \\ \lambda=n^{-1}\sum_{i=1}^{n}x_i=\overline{X} dλdlnL(λ)=0=i=1nf(xi;θ)1(dxdf(xi;θ))=i=1n(xi!1λxieλ)1xi!1(xiλxi1eλ+λxieλ(1))=i=1nλxi(xiλxi1λxi)=i=1n(xiλ11)=0λ1i=1nxin=0λ=n1i=1nxi=X
    • 结果:

      • 极大似然估计为 λ ^ = X ‾ \\极大似然估计为\hat{\lambda}=\overline{X} 极大似然估计为λ^=X
连续型实例
  • 设总体 X ∼ N ( μ , σ 2 ) , ( X 1 , X 2 , ⋯   , X n ) 来自总体 X 的样本 ( x 1 , x 2 , ⋯   , x n ) 是样本观察值 求未知参数 μ , σ 2 的最大似然 设总体X\sim{N(\mu,\sigma^2)},(X_1,X_2,\cdots,X_n)来自总体X的样本 \\(x_1,x_2,\cdots,x_n)是样本观察值 \\求未知参数\mu,\sigma^2的最大似然 设总体XN(μ,σ2),(X1,X2,,Xn)来自总体X的样本(x1,x2,,xn)是样本观察值求未知参数μ,σ2的最大似然

    • 此处未知参数有两个 , 令向量 : θ = ( μ , σ 2 ) 记 f ( x i ; θ ) = f ( x i ; ( μ , σ 2 ) ) = ( 2 π σ ) − 1 e − 1 2 ( x i − μ ) 2 σ 2 ln ⁡ L ( θ ) = L ( μ , σ 2 ) = ∏ i = 1 n f ( x i ; θ ) = ( 2 π σ ) − n ∏ i = 1 n e − 1 2 ( x i − μ ) 2 σ 2 = ( 2 π σ ) − n e − 1 2 ( ∑ i = 1 n ( x i − μ ) 2 σ 2 ) 取对数 ln ⁡ L ( θ ) = − n ln ⁡ ( 2 π σ ) − 1 2 ( ∑ i = 1 n ( x i − μ ) 2 σ 2 ) = − n ln ⁡ ( 2 π ) − n ln ⁡ σ − 1 2 ( ∑ i = 1 n ( x i − μ ) 2 σ 2 ) = − n ln ⁡ ( 2 π ) − 1 2 n ln ⁡ σ 2 − 1 2 σ 2 ( ∑ i = 1 n ( x i − μ ) 2 ) 此处未知参数有两个,令向量:\theta=(\mu,\sigma^2) \\记f(x_i;\theta)=f(x_i;(\mu,\sigma^2)) =(\sqrt{2\pi}\sigma)^{-1}e^{-\frac{1}{2}\frac{(x_i-\mu)^2}{\sigma^2}} \\ \ln{L(\theta)}=L(\mu,\sigma^2)=\prod_{i=1}^{n}f(x_i;\theta) =(\sqrt{2\pi}\sigma)^{-n}\prod_{i=1}^{n}e^{-\frac{1}{2}\frac{(x_i-\mu)^2}{\sigma^2}} \\=(\sqrt{2\pi}\sigma)^{-n} e^{-\frac{1}{2}(\sum\limits_{i=1}^{n}\frac{(x_i-\mu)^2}{\sigma^2})} \\取对数 \\ \ln{L(\theta)} =-n\ln({\sqrt{2\pi}\sigma})-\frac{1}{2}(\sum\limits_{i=1}^{n}\frac{(x_i-\mu)^2}{\sigma^2}) \\=-n\ln({\sqrt{2\pi}})-n\ln{\sigma}-\frac{1}{2}(\sum\limits_{i=1}^{n}\frac{(x_i-\mu)^2}{\sigma^2}) \\=-n\ln({\sqrt{2\pi}})-\frac{1}{2}n\ln{\sigma^2}-\frac{1}{2\sigma^2}(\sum\limits_{i=1}^{n}(x_i-\mu)^2) 此处未知参数有两个,令向量:θ=(μ,σ2)f(xi;θ)=f(xi;(μ,σ2))=(2π σ)1e21σ2(xiμ)2lnL(θ)=L(μ,σ2)=i=1nf(xi;θ)=(2π σ)ni=1ne21σ2(xiμ)2=(2π σ)ne21(i=1nσ2(xiμ)2)取对数lnL(θ)=nln(2π σ)21(i=1nσ2(xiμ)2)=nln(2π )nlnσ21(i=1nσ2(xiμ)2)=nln(2π )21nlnσ22σ21(i=1n(xiμ)2)

    • 求出驻点(求导,多个未知量求偏导)

      • ∂ ∂ θ i ln ⁡ L ( θ i ) = 0 ; i = 1 , 2 ∂ ∂ μ ln ⁡ L ( θ ) = 0 ; i = 1 , 2 ∂ ∂ μ ln ⁡ L ( θ ) = 0 + 0 − 1 2 σ 2 ( ∑ i = 1 n 2 ( x i − μ ) ( − 1 ) ) = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 ∑ i = 1 n ( x i − μ ) = 0 ∑ i = 1 n x i − ∑ i = 1 n μ = 0 μ = 1 n ∑ i = 1 n x i = X ‾ \frac{\partial}{\partial\theta_i }\ln{L(\theta_i)}=0;i=1,2 \\\\ \frac{\partial}{\partial\mu }\ln{L(\theta)}=0;i=1,2 \\\frac{\partial}{\partial\mu }\ln{L(\theta)}=0+0-\frac{1}{2\sigma^2}(\sum\limits_{i=1}^{n}2(x_i-\mu)(-1)) \\=\frac{1}{\sigma^2}\sum\limits_{i=1}^{n}(x_i-\mu)=0 \\ \sum\limits_{i=1}^{n}(x_i-\mu)=0 \\ \sum\limits_{i=1}^{n}x_i-\sum\limits_{i=1}^{n}\mu=0 \\ \mu=\frac{1}{n}\sum\limits_{i=1}^{n}x_i=\overline{X} θilnL(θi)=0;i=1,2μlnL(θ)=0;i=1,2μlnL(θ)=0+02σ21(i=1n2(xiμ)(1))=σ21i=1n(xiμ)=0i=1n(xiμ)=0i=1nxii=1nμ=0μ=n1i=1nxi=X

      • 记 A = ∑ i = 1 n ( x i − μ ) 2 ∂ ∂ σ 2 ln ⁡ L ( θ ) = A σ − 3 − 1 σ n = 0 σ 2 = 1 n A = 1 n ∑ i = 1 n ( x i − μ ) 2 = 1 n ∑ i = 1 n ( x i − X ‾ ) 2 记A=\sum\limits_{i=1}^{n}(x_i-\mu)^2 \\ \frac{\partial}{\partial\sigma^2 }\ln{L(\theta)} =A\sigma^{-3}-\frac{1}{\sigma}n=0 \\\sigma^2=\frac{1}{n}A =\frac{1}{n}\sum\limits_{i=1}^{n}(x_i-\mu)^2 =\frac{1}{n}\sum\limits_{i=1}^{n}(x_i-\overline{X})^2 A=i=1n(xiμ)2σ2lnL(θ)=Aσ3σ1n=0σ2=n1A=n1i=1n(xiμ)2=n1i=1n(xiX)2

    • 结果:
      μ ^ = X ‾ σ 2 ^ = 1 n ∑ i = 1 n ( x i − X ‾ ) 2 \hat{\mu}=\overline{X} \\ \hat{\sigma^2}=\frac{1}{n}\sum\limits_{i=1}^{n}(x_i-\overline{X})^2 μ^=Xσ2^=n1i=1n(xiX)2

posted @   xuchaoxin1375  阅读(20)  评论(0编辑  收藏  举报  
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
历史上的今天:
2021-11-03 powershell@posh主题设置和自定义@动态补全配置
2021-11-03 vscode_neovim(vim enhanced)配置与使用@通过变量$MYVIMRC来修改vim配置文件
点击右上角即可分享
微信分享提示