数学一|概统|七、参数估计

考试要求

  • 理解参数的点估计、估计量与估计值的概念;
  • 掌握矩估计法(一阶矩、二阶矩)和最大似然估计法.
  • 了解估计量的无偏性、有效性(最小方差性)和一致性(相合性)的概念,并会验证估计量的无偏性;
  • 理解区间估计的概念,会求单个正态总体的均值和方差的置信区间,会求两个正态总体的均值差和方差比的置信区间;

1. 点估计

设总体 X 的分布形式已知,但含有未知参数 θ 或总体的数字特征存在但未知,要估计 θ,一般分为两个步骤:

  1. 从总体 X 中抽取样本 X1,X2,,Xn,构造适当的估计量 θ^(X1,X2,,Xn)
  2. 用上述估计量对 θ 进行估计;

因为 θ^(X1,X2,,Xn) 的值为一个实数,故称其为点估计,若样本 X1,X2,,Xn 的观测值为 x1,x2,,xn,则称 θ^(x1,x2,,xn)θ 的估计值,称 θ^(X1,X2,,Xn)θ 的估计量 (estimator)。常用的点估计方法有矩估计和最大似然估计。

1.1 最大似然估计(Maximum Likelihood Estimation, MLE

1.1.1 似然函数

假设 Y=(x1,x2,,xn) 是来自概率质量函数 pX(t:θ)X 离散时)或来自概率密度函数 fX(t:θ)X 连续时)的独立同分布的样本值,θ 是一个参数(或参数向量)。我们将给定 θ 下的 Y 的似然函数定义为参数为 θY 出现的概率:

  • X 离散时,L(Y:θ)=i=1npX(xi:θ)

  • X 连续时,L(Y:θ)=i=1nfX(xi:θ)

X 连续时,由似然函数的定义可得,我们需要对每一个 xi 出现的概率进行连乘,由于连续随机变量在单点的概率为零,所以连续情况下用单点概率进行连乘得到的似然函数没有意义(总为零)。因为 P(X=u)fX(u),所以在连续情况下可以用概率密度函数近似单点的概率,来使得连续情况下的似然函数有意义。

1.1.2 最大似然估计

接下来我们将正式定义一个参数下的最大似然估计。直观上来说,最大似然估计的结果就是使得观测数据出现的概率最大的 θ 值,即,使似然函数达到最大的 θ 值。

假设 Y=(x1,x2,,xn) 是来自概率质量函数 pX(t:θ)X 离散时)或来自概率密度函数 fX(t:θ)X 连续时)的独立同分布的样本值,θ 是一个参数(或参数向量)。我们将 θ 的最大似然估计量 θ^MLE 定义为使似然函数取得最大值的参数:

θ^MLE=arg maxθL(Y:θ)=arg maxθlnL(Y:θ)

因为要求似然函数的最大值,而求最大值一般涉及到求极值,求极值的方法中又需要求导并且似然函数是连乘的可用对数法简化求导的过程,而且对数函数是单调递增的,所以在取对数后得到的 θ^ 与未取对数前的得到的 θ^ 相同

注意 maxarg max 的区别:假设 f(x)=1x2,该函数的 max =1, arg max=0,即 f(arg max) = max。在 MLE 我们找的是使得似然函数最大的参数,并不关心似然函数的最大值。

下面是一个简单的例子。假设 Y=(x1,x2,x3,x4,x5)=(1,1,1,1,0) 是取自 Ber(θ) 的独立同分布的样本,θ 为未知参数。利用 MLE 估计 θ

  • 首先构造似然函数,L(HHHHT:θ)=θ4(1θ)=θ4θ5

  • 然后求似然函数的最大值:求极值,确定极值点,将极值点和端点进行比较得到最大值。

    L(Y:θ)=4θ35θ4=θ3(45θ)likely extreme points 0, 4/5

    为什么 0,4/5 是可能的极值点,因为极值点的判断除了一阶导为零外,还需要一阶导左右两侧异号

    θ[0,1],所以求最大值,只需要比较 0,4/5,1 这三点的似然函数的值即可求得最大值,可以求得 θ^=45 时取得最大值。

θ^MLE 的一般步骤:

  • 构造似然函数或对数似然函数;
  • 求使得似然函数达到最大值的参数;
  • 有时还需要验证(但我们不考虑);

1.1.3 最大似然估计例子

例一、Y=(x1,x2,,xn) 是来自 Poi(θ) 的独立同分布的样本,利用 MLEθ 进行估计。

  • 构造似然函数,取对数,

    L(Y:θ)=i=1npX(xi:θ)=i=1neθθxixi!lnL(Y:θ)=ln(i=1neθθxixi!)=i=1n[θ+xilnθlnxi!]

  • 求最大值点。求出可能的极值点然后和端点一起比较,得出最大值,

    [lnL(Y:θ)]=i=1n[1+xiθ]=0n+1θ^i=1nxi=0θ^=1ni=1nxi

    由泊松分布的图像可得,在其定义区间内,只存在一个极大值点,所以该点同时也为最大值点。

例二、Y=(x1,x2,,xn) 是来自 Exp(θ) 的独立同分布的样本,利用 MLEθ 进行估计。

  • 构造似然函数,取对数,

    L(Y:θ)=i=1nfX(xi:θ)=i=1nθeθxilnL(Y:θ)=i=1nln(θeθxi)=i=1n[ln(θ)θxi]

  • 求最大值点。求出可能的极值点然后和端点一起比较,得出最大值,

    [lnL(Y:θ)]=i=1n[1θxi]=0nθi=1nxi=0θ^=ni=1nxi

例三、Y=(x1,x2,,xn) 是来自 Unif(0,θ) 的独立同分布的样本,利用 MLEθ 进行估计。

  • 构造似然函数,取对数。因为均匀分布的密度函数是分段函数,我们需要利用分段函数将其化简为一个表达式,

    fX(x:θ){1θ,0xθ,0,otherwiseIA{1,A is true,0,A is falsefX(x:θ)=1θI{0xθ}L(Y:θ)=i=1nfX(xi:θ)=i=1n1θI{0xiθ}=1θnI{0x1,,xnθ}

    求最大值点。求出可能的极值点然后和端点一起比较,得出最大值。

    ddθL(Y:θ)=nθn+1I{0x1,,xnθ}

    I{0x1,,xnθ} 只是为了表示 0x1,,xnθ 时函数为 1θn,所以求导时只需要对 1θn 求导即可。虽然得到了求导的结果,但是求得导数为零的点,即无法直接求得极值点。下面是 1θn 的图像:

    函数图像
    函数图像

    从上面的图片可以得到,θ=0 时,1θn 可能取到最大值。但是似然函数为 1θnI{0x1,,xnθ},当 x1,,xn 的最大值小于等于 θ 时,那么 xi 都小于 θ,所以似然函数也可以改写为 1θnI{0xmaxθ},所以似然函数的图像如下:

    似然函数的图像
    似然函数的图像

    所以 θ^MLE=xmax=max{x1,,xn}

例三只是一个特殊的均匀分布的例子,因为均匀分布的范围一般由两个变量决定 (Unif(a,b) 的范围为 [a,b])。另一方面,对于大多数分布来说,无论它们的值为多少,它们总有相同的范围。例如,对于 Poi(λ) 来说,它的范围总是为 {0,1,2,};对于 Exp(λ) 的范围总是为 [0,+)

1.2 矩估计(Method of Moments, MoM)

矩估计的基本思想是用样本矩估计总体矩。首先回顾一下矩的概念,然后引出样本矩。E[Xk] 称为随机变量 Xk 阶矩;E[(Xμ)k] 称为随机变量 Xk 阶中心矩,其中 μ 为随机变量 X 的方差。由期望和方差的定义可得,X 的一阶矩为期望,二阶中心矩为方差。

接下来定义样本矩,Xk 阶矩为随机变量 Xk 的均值,那么样本的 k 阶矩也应为样本的 k 次方的均值,即 Ak=1ni=1nXik,样本的 k 阶中心矩为 Bk=1ni=1n(Xiμ)k。由样本均值和样本方差的定义的,样本的一阶矩为样本均值,即 A1=1ni=1nXi=X;样本的二阶中心矩为样本方差,即 B2=1ni=1n(XiX)2

考试中的矩估计一般只会用到一阶或二阶

1.2.1 矩估计思想

假设我们只需要估计一个参数 θ(有时你可能需要估计两个参数,比如 N(μ,σ2))。矩估计背后的思想是:找到一个好的估计量,可以使得真实的矩和样本矩尽可能接近。也就是说,我们应该选择参数 θ 使得一阶真实矩 E[X] 等于一阶样本矩 X。下面是一个例子:

矩估计例子

矩估计例子

E[X]=θ2=X=1ni=1nxiE[Unif(a,b)]=a+b2θ^MoM=2ni=1nxi=2X

联想一下之前学的大数定理可以发现上面的结果显然正确。

limnP(|Xμ|ϵ)=0n,Xμ

当有两个参数的时候该如何解决?令一阶真实矩等于一阶样本矩(就像我们上面做的那样),再令二阶真实矩等于二阶样本矩然后解方程,解得的结果记得加帽子,表示这是一个估计量。当我们有 k 个参数的时候该如何解决?

矩估计定义

矩估计定义

矩估计例子

矩估计例子

E[X]=θ1=X=1ni=1nxiE[X2]=Var(X)(E[X])2=θ2+θ12=1ni=1nxi2solved θ^1=1ni=1nxi,θ^2=1ni=1nxi2(1ni=1nxi)

了解矩估计的思想,会解题即可,一个参数的矩估计可用大数定理证明,两个及 n 个参数的矩估计都可以用大数定理进行证明,应该可以用归纳法进行证明

1.3 估计量的评选标准

  • 无偏性:若 θ 的估计量 θ^=θ^(X1,,Xn) 的数学期望 E(θ^) 存在并且 E(θ^)=θ,则称 θ^ 是参数 θ 的无偏估计量;

  • 有效性:设 θ^1θ^2 都是未知参数 θ 的无偏估计量,若 D(θ^1)D(θ^2),则称 θ^1θ^2 有效。若对 θ 的一切无偏估计量,θ^1 的方差最小,则称 θ^1θ 的最小方差估计;

  • 一致性(相合性):设 θ^=θ^(X1,,Xn) 为未知参数 θ 的估计量,若当 n 时,θ^=θ^(X1,,Xn) 依概率收敛于 θ,则称 θ^ 为未知参数 θ 的一致估计量(或相合估计量)

无偏性和有效性是在样本容量 n 固定的前提下,对 θ^ 的优劣评判,当样本容量无限增大时,估计量越来越接要估计的未知参数的真值,这就是估计量的一致性

2. 区间估计

置信区间是经典统计下的区间估计;可信区间是贝叶斯统计下的区间估计。

2.1 置信区间

2.1.1 置信区间引入

由点估计 (MoM, MLE) 得到的估计值是真实值的概率为 0,即 P(θ^=θ)=0。原因是因为 θ 是实数,可以取任意值,所以估计值完全正确的概率为 0,即使非常接近。但是,我们可以求得一个区间, θ 有很大的概率落在这个区间中。

P(θ[θ^Δ,θ^+Δ])=0.95

下述是这个区间三种等价的描述方法:

P(θ[θ^Δ,θ^+Δ])=P(|θ^θ^|Δ)=P(θ^[θΔ,θ+Δ])=0.95

特别注意第一个和第三个(交换了 θ^θ)。

2.1.2 置信区间

置信区间定义:假设有一个带未知参数 θ 的分布,你从中得到了一系列独立同分布的样本值 x1,,xn,使用 θ^θ 进行估计。θ 的一个置信度为 100(1α)% 的置信区间为集中于 θ^ 的一个小区间(一般来说以 θ^ 为中心),这个区间有 100(1α)% 的概率能够捕获到 θ,即

P(θ[θ^Δ,θ^+Δ])=1α

如何理解置信区间——以 99% 的置信区间 [0.279,0.401] 为例:

错误理解:θ99% 的概率落在置信区间 [θ^Δ,θ^+Δ]=[0.279,0.401] 中。这种理解是错误的,其中没有随机性,θ 是一个固定的参数。

正确理解:如果我们多次重复这个过程(每次得到 n 个样本并构造不同的置信区间),我们构造的置信区间中有 99% 的置信区间会包含 θ

2.2 单个正态总体的均值和方差的置信区间

X1,X2,···,Xn 是来自总体 N(μ,σ2) 的样本,条件分别如下,分别构造 (1α) 的置信区间:

2.2.1 正态总体 σ 已知时 μ 的置信区间

MoM 进行估计可得,μ^=X=1ni=1nXiN(μ,σ2/n)

对其进行标准化,Xμσ/nN(0,1),由置信区间的定义可得,

P(μ(μ^Δ,μ^+Δ))=1α=P(μ^(μΔ,μ+Δ))=P(μΔ<μ^<μ+Δ)=P(Δσ/n<μ^μσ/n<Δσ/n)=2Φ(Δσ/n)1=1αΦ(Δσ/n)=1α2Δ=Φ1(1α2)σ/n

z1α2=Φ1(1α2),则 μ 的置信区间为:

[Xz1α2σn,X+z1α2σn]

2.2.2 正态总体 σ 未知时 μ 的置信区间

σ 未知时,求 μ 的置信区间,可用样本标准差 S 对已知 σμ 的置信区间中的 σ 进行估计,标准化后的变量为 XμS/n,由计算可得(不知道怎么算的),这个随机变量并不服从标准正态,我们将其定义为自由度为 n1t 分布,即 t(n1)。此时 μ 的置信区间为:

[Xtα2(n1)Sn,X+tα2(n1)Sn]

tα2(n1) 意味着,对于 Tt(n1) 有唯一的 tα2(n1) 使得 P(Ttα2(n1))=α2

2.2.3 正态总体 μ 已知时 σ2 的置信区间

1σ2i=1n(Xiμ)2χ2(n),上述变量中,只有 σ2 未知,因此可作为枢轴变量,进一步构造 1α 置信区间,可得

χ1α22(n)<1σ2i=1n(Xiμ)2<χα22(n)i=1n(Xiμ)2χα22(n)<σ2<i=1n(Xiμ)2χ1α22(n)

注:卡方分布不是对称的,但是由于习惯,在选择上侧分位数的时候仍然使用 α2,但是不能像正态分布或者 t 分布一样直接使用相反数,比如上面的 tα2(n1)tα2(n1),而是要使用 χ1α22(n)χα22(n)

2.2.4 正态总体 μ 未知时 σ2 的置信区间

μ 未知时,可用 X 对其进行估计,对上例枢轴变量中的 μ 进行估计可得,1σ2i=1n(XiX)2χ2(n1),与上例中不同的是估计后的枢轴变量服从的是自由度为 n1 的卡方分布,而不是 n,不知道怎么证明,理解就好。

简单理解记忆:用 X=1n(X1++Xn) 代替 μ,使新的枢轴变量中多出一个约束(方程)。联系线性方程组的知识点,多一个方程就少一个自由未知量,因此自由度就比下面的少1。

联想样本方差,对 1σ2i=1n(XiX)2 进行化简可得 (n1)S2σ2。由于样本是已知的,所以样本容量和样本方差都是已知的,只有要估计的 σ2 是未知的,所以可将其作为枢轴变量,类似地,对此枢轴变量构造 1α 的置信区间,可得:

χ1α22(n1)<(n1)S2σ2<χα22(n1)(n1)S2χα22(n1)<σ2<(n1)S2χ1α22(n1)

2.3 两个正态总体的均值差和方差比的置信区间

XN(μ1,σ12),YN(μ2,σ22)X1,X2,,Xn 是来自 X 的样本,Y1,Y2,,Ym 是来自 Y 的样本,总体 XY 独立,于是

X1,X2,,Xn,Y1,,Ym

相互独立。

2.3.1 均值差 μ1μ2 的置信区间

  1. m=n 时,令 Zi=XiYi,i=1,2,,n,则有

ZiN(μZ,σZ2),μZ=μ1μ2,σZ2=σ12+σ22

由此可转换为单个正态总体当 σZ2 未知时,求其均值 μZ 的置信区间的问题。显见 Z=XYμZ 的一个良好的无偏估计,枢轴变量

TZ=(Zμz)SZ/nt(n1)

此处 SZ2=1n1i=1n(ZiZ)2,由于样本是已知的,所以样本容量、样本均值和样本方差都是已知的,只有要估计的 μZ 是未知的,所以可将其作为枢轴变量,类似地,对此枢轴变量构造 1α 的置信区间,可得

tα2(n1)<(Zμz)SZ/n<tα2(n1)Ztα2(n1)SZn<μZ<Z+tα2(n1)SZn

  1. mn,σ12,σ22 已知时,XYμ1μ2 的一个良好的无偏估计,枢轴变量为 Z,然后构造 1α 置信区间,

    Z=XY(μ1μ2)σ12/n+σ22/mN(0,1)zα2<XY(μ1μ2)σ12/n+σ22/m<zα2XYzα2σ12/n+σ22/m<μ1μ2<XYzα2σ12/n+σ22/m[XYzα2σ12/n+σ22/m,XYzα2σ12/n+σ22/m]

  2. mn,σ12,σ22 未知,但 σ12=σ22=σ2,由

    ξ1=(n1)S12σ2=1σ2j=1n(XjXn)2χ2(n1)ξ2=(n1)S22σ2=1σ2j=1m(YjYm)2χ2(m1)

    因为 X,Y 独立,ξ1,ξ2 分别为 X,Y 的函数,所以 ξ1,ξ2 独立,由 χ2 的性质可得,

    ξ1+ξ2χ2(n+m2)

    引入

    SW2=(ξ1+ξ2)σ2n+m2=(n1)S12+(m1)S22n+m2

    XnS2 分别为正态分布的样本均值和样本方差,则 XS2 独立,所以 Z,ξ1,ξ2 也独立,又因为 σ12=σ22=σ2 以及卡方分布和 t 分布的定义可得,

    XnYm(μ1μ2)SW1/n+1/m=Z(ξ1+ξ2)/(n+m2)t(n+m2)

    利用上式构造 μ1μ2 的置信度为 (1α) 的置信区间,

    [(XnYm)tα2SW1n+1m,(XnYm)+tα2SW1n+1m]

    其中 tα2=tα2(n+m2)

    个人理解:σ2 未知,所以要找到一个估计量来对其进行估计,常用样本方差对其 σ,又因为样本方差和卡方分布的性质,以及正态总体可标准化为标准正态,联想到 t 分布。感觉思路有点乱。

  3. 其余情况现阶段不需要考虑;

2.3.2 方差比 σ12/σ22 的置信区间

(n1)S12σ12χ2(n1),(m1)S22σ22χ2(m1)IF Xχ2(m),Yχ2(n),F=X/mY/n, then FF(m,n)S22/σ22S12/σ12F(m1,n1)F1α2(m1,n1)<S22σ12S12σ22<Fα2(m1,n1)S12S22F1α2(m1,n1)<σ12σ22<S12S22Fα2(m1,n1)

注意:与 χ2(n) 类似 F 分布也不对称图形。

参考资料

posted @   TimeLimitExceeded  阅读(43)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示

📖目录