点估计

1 点估计

1.1 矩法估计

1.1.1 概述

(1)矩法估计的提出

矩法估计由英国统计学家皮尔逊在20世纪提出来,其中心思想就是用样本矩去估计总体矩.

(2)总体矩

总体 \(X\)\(k\) 阶原点矩:设总体 \(X\) 的未知参数为 \(\pmb{\theta}=(\theta_1,\theta_2,\cdots,\theta_m)^T\),其分布函数为 \(F(x;\theta_1,\theta_2,\cdots,\theta_m)\),则总体 \(X\)\(k\) 阶原点矩定义为

\[\alpha_k(\theta_1,\theta_2,\cdots,\theta_m)=E(X^k)=\int_{-\infty}^{\infty}x^k\text{d}F(x;\theta_1,\theta_2,\cdots,\theta_m) \]

总体 \(X\)\(k\) 阶中心矩

\[\mu_k(\theta_1,\theta_2,\cdots,\theta_m)=E([X-E(X)]^k)=\int_{-\infty}^{\infty}(x-EX)^k\text{d}F(x;\theta_1,\theta_2,\cdots,\theta_m) \]

(3)样本矩

\(x_1,x_2,\cdots,x_n\) 是样本,则样本的 \(k\) 阶原点矩

\[a_k=\frac{1}{n}\sum_{i=1}^nx_i^k \]

样本的 \(k\) 阶中心距

\[b_k=\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^k \]

特别的,样本的一阶原点矩就是样本均值,样本的二阶中心矩就是样本方差.

(4)矩法

矩法就是令总体矩等于样本矩,构成关于未知参数的方程组,利用方程组求解未知参数的估计值。例如,令总体的 \(k\) 阶原点矩等于样本的 \(k\) 阶原点矩,得方程组

\[\alpha_k(\theta_1,\theta_2,\cdots,\theta_m)=A_k,\quad k=1,2,\cdots,m. \]

求解上述方程组可得

\[\hat \theta_i = \hat \theta_i(X_1,X_2,\cdots,X_n),\quad i=1,2,\cdots,m. \]

\(\hat{\pmb{\theta}}=(\hat\theta_1,\hat\theta_2,\cdots,\hat\theta_m)^T\) 作为 \(\pmb{\theta}=(\theta_1,\theta_2,\cdots,\theta_m)^T\) 的估计,则称 \(\hat{\pmb{\theta}}\)\(\pmb{\theta}\) 的矩估计,用矩估计参数的方法称为矩法.

参考:

  • 茆诗松 《概率论与数理统计》
  • 薛毅 《统计建模与R软件》P154 - 155

1.1.2 实例

设总体 \(X\) 服从二项分布 \(N(n,p)\),其中 \(n,p\) 为未知参数,\(X_1,X_2,\cdots,X_m\) 是总体 \(X\) 的简单随机样本,求参数 \(n,p\) 的矩估计 \(\hat n,\hat p\).

:尽管本例可以得到矩估计的解析表达式,但为了演示数值计算的过程,这里采用数值计算的方法进行矩估计.

二项分布的均值为 \(np\),方差是 \(np(1-p)\). 根据矩法估计的原理,建立如下方程组

\[np-\bar X=0,\quad np(1-p)-M_2=0 \]

求解上述非线性方程组即可得到参数的矩估计. 下面用 \(R\) 求解:

Step1: 编写非线性方程组

## 编写非线性方程组
F <- function(p) c(p[1]*p[2] - A1, p[1]*p[2]*(1-p[2]) - M2)

Step2: 随机生成一个二项分布,得出它的矩估计

> ## 随机生成一个二项分布,得出矩法估计的数值解
> set.seed(0)
> x <- rbinom(100, 2, 0.7) # 随机生成一个二项分布
> n <- length(x)
> A1 <- mean(x) # 一阶原点矩
> M2 <- (n-1)/n*var(x) # 二阶中心矩
> p <- c(10, 0.5) # 初始值
> nleqslv(p, fn = F)
$x
[1] 1.9070295 0.7603448

$fvec
[1]  1.607902e-09 -4.675528e-10

$termcd
[1] 1

$message
[1] "Function criterion near zero"

$scalex
[1] 1 1

$nfcnt
[1] 15

$njcnt
[1] 2

$iter
[1] 13

于是得到的数值解为

\[\hat n=1.907, \quad \hat p=0.760 \]

为了了解数值计算的精确程度,下面给出解析解

> ## 解析解
> A1^2/(A1-M2)
[1] 1.907029
> (A1-M2)/A1
[1] 0.7603448

可以看到两者的误差是很小的.

参考:薛毅 《统计建模与R软件》P155 - 157

1.2 极大似然估计 MLE

1.2.1 概述

(1)极大似然法的提出

极大似然法由费希尔于1912年提出,其思想始于高斯的误差理论.

(2)极大似然估计的统计学定义

设总体的概率函数为 \(p(x;\theta), \ \theta \in \Theta\),其中 \(\theta\) 是一个未知参数或几个未知参数组成的参数向量,\(\Theta\) 是参数空间,\(x_1,x_2,\cdots,x_n\) 是来自该总体的样本,将样本的联合概率函数看成 \(\theta\) 的函数,用 \(L(\theta;x_1,x_2,\cdots,x_n)\) 表示,简记为 \(L(\theta)\)

\[L(\theta)=L(\theta;x_1,x_2,\cdots,x_n)=p(x_1;\theta)p(x_2;\theta)\cdots p(x_n;\theta), \]

\(L(\theta)\) 成为样本的似然函数. 如果某统计量 \(\hat \theta=\hat\theta(x_1,x_2,\cdots,x_n)\) 满足

\[L(\hat \theta)=\max\limits_{\theta \in \Theta}L(\theta) \]

则称 \(\hat \theta\)\(\theta\) 的最大似然估计.

(3)极大似然估计的统计学意义

概率函数和似然函数

对于两者的理解,可以参考下面这篇回答,比较通俗易懂。

https://www.zhihu.com/question/54082000/answer/470252492

简单来说,对于双变量函数 \(p(x;\theta)\),如果 \(\theta\) 是一个常数,那么 \(p(x;\theta)\) 就是关于样本 \(x\) 的函数,它刻画的是样本 \(x\) 出现的概率,此时它就是概率函数;而如果样本 \(x\) 已知,\(\theta\) 未知,那么它就是关于 \(\theta\) 的函数,其刻画的是样本在参数 \(\theta\) 下发生的概率,此时它就是似然函数.

极大似然估计

所谓极大似然估计,就是似然函数取最大值时参数 \(\theta\) 的取值. 也就是说,样本在此参数下发生的概率最大.

为什么将似然函数取最大值时参数的取值作为其估计值? 因为现在的情况是已知样本 \(x\) 发生了,那么这个事件发生的理论概率应当尽可能大,因此我们才要找似然函数取最大时所对应的参数的取值作为其估计值.

(4)极大似然估计的一般步骤

  • 写出似然函数
  • 求解似然函数的极大值点
    • 当似然函数是参数 \(\theta\) 的连续函数且关于 \(\theta\) 的导数存在时,在很多时候,为了计算方便,我们对似然函数取对数,然后求导计算它的极大值点.
    • 当似然函数关于 \(\theta\) 有间断点时,此时上面的解法不再适用,需要具体问题具体分析.
    • 当参数空间 \(\Theta\) 为离散空间时,此时似然函数类似于离散的含有未知参数的数列,因此转为求该数列的最大值,这里经常考虑参数取相邻值时似然函数的比值,该比值与1比较就可知道数列的“单调性”,从而求得最大值.
    • 当求解析解困难时,可以考虑数值方法. 这就要用到数学软件了.

参考:

1.2.2 实例

设总体 \(X\) 服从柯西分布,其概率密度函数为

\[f(x;\theta)=\frac{1}{\pi[1+(x-\theta)^2]}, \quad -\infty < x < \infty, \]

其中 \(\theta\) 为未知参数,\(X_1,X_2,\cdots,X_n\) 是来自总体 \(X\) 的样本,求 \(\theta\) 的极大似然估计.

:柯西分布的似然函数为

\[L(\theta;x)=\prod_{i=1}^nf(x_i;\theta)=\frac{1}{\pi^n}\prod_{i=1}^n\frac{1}{1+(x_i-\theta)^2}, \]

于是可以得到对数似然函数为

\[\ln L(\theta;x)=-n\ln \pi-\sum_{i=1}^n\ln(1+(x_i-\theta)^2), \]

\(\theta\) 求偏导,得

\[\frac{\partial\ln L(\theta;x)}{\partial\theta}=2\sum_{i=1}^n\frac{x_i-\theta}{1+(x_i-\theta)^2} \]

令上式为0,即可得对数似然方程

\[\sum_{i=1}^n\frac{x_i-\theta}{1+(x_i-\theta)^2}=0 \]

想要得到上述方程的解析解是困难的,因此考虑求其数值解.

方法一:求对数似然方程的根

> set.seed(0) # 随机数种子
> x <- rcauchy(1000, 1) # 生成参数 theta = 1 的柯西分布随机数
> f <- function(p) sum((x-p)/(1+(x-p)^2)) # 对数似然方程所对应的函数
> uniroot(f, c(0, 5)) # 在 (0,5) 范围下求方程的根
$root
[1] 1.038724

$f.root
[1] -0.0001238328

$iter
[1] 6

$init.it
[1] NA

$estim.prec
[1] 6.103516e-05

经过6次迭代(iter),得到参数的极大似然估计为 \(\hat \theta=1.0387\),这与真实值 \(1\) 很接近.

方法二:求似然函数的极值点

> n <- length(x) # 样本点个数
> loglike <- function(p) -n*log(pi) - sum(log(1+(x-p)^2)) # 对数似然函数
> optimize(loglike, c(0,5), maximum = T) # 在(0,5)范围内求函数的极大值点
$maximum
[1] 1.038736

$objective
[1] -2577.062

求得极大值点为1.0387,即极大似然估计为 \(\hat \theta=1.0387\),这与方法一的结论很接近,当然与真实值也很接近.

参考:薛毅 《统计建模与R软件》P163

1.2.3 EM算法

开发中

1.3 评价估计量的方法

1.3.1 无偏性

(1)无偏估计的统计学意义

\(\hat\theta=\hat\theta(x_1,x_2,\cdots,x_n)\)\(\theta\) 的一个估计,\(\theta\) 的参数空间为 \(\Theta\),若对任意的 \(\theta \in \Theta\),有

\[E({\hat\theta})=\theta \]

则称 \(\hat\theta\)\(\theta\) 的无偏估计,否则称为有偏估计.

\(E(\hat\theta)-\theta \neq 0\),但当样本容量 \(n \to \infty\) 时,有

\[\lim\limits_{n \to \infty}[E(\hat\theta)-\theta]=0, \]

则称 \(\hat\theta\)\(\theta\)渐进无偏估计.

(2)例题

设总体 \(X\) 的均值 \(\mu\)、方差 \(\sigma^2\) 存在,\(\mu,\sigma^2\) 未知,则 \(\sigma^2\) 的估计量

\[\hat\sigma^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2 \]

是有偏估计.

证明:估计量的数学期望为

\[\begin{aligned} E(\hat\sigma^2)&=E(\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2)=\frac{1}{n}E(\sum_{i=1}^n(X_i^2-2X_i\overline X+\overline X^2))=\frac{1}{n}E(\sum_{i=1}^nX_i^2-2\overline X\sum_{i=1}^nX_i+n\overline X^2)\\ &=\frac{1}{n}E(\sum_{i=1}^nX_i^2-n\overline X^2)=\frac{1}{n}E(\sum_{i=1}^nX_i^2)-E(\overline X^2)=\frac{1}{n}\sum_{i=1}^nEX_i^2-E(\overline X^2) \end{aligned} \]

\[E(X_i^2)=Var(X_i)+[E(X_i)]^2=\sigma^2+\mu^2\\ E(\overline X^2)=Var(\overline X)+[E(\overline X)]^2=\frac{\sigma^2}{n}+\mu^2 \]

于是

\[E(\hat\sigma^2)=\frac{1}{n}\sum_{i=1}^n(\sigma^2+\mu^2)-\frac{\sigma^2}{n}-\mu^2=\frac{n-1}{n}\sigma^2\neq\sigma^2 \]

因此 \(\hat\sigma^2\) 是有偏估计,而当 \(n \to \infty\) 时,有 \(E(\hat\sigma^2)\to\sigma^2\),因此它是渐进无偏估计.

参考:

  • 茆诗松 《概率论与数理统计》 P267
  • 薛毅 《统计建模与R软件》P164 - 165

1.3.2 有效性

(1)有效性的统计学意义

\(\hat\theta_1,\hat\theta_2\)\(\theta\) 的两个无偏估计,如果对任意的 \(\theta \in \Theta\)

\[Var(\hat\theta_1) \leq Var(\hat\theta_2), \]

且至少有一个 \(\theta \in \Theta\) 使得上述不等号严格成立,则称 \(\hat\theta_1\)\(\hat\theta_2\) 有效.

考察 \(\theta\) 的所有无偏估计量,如果存在一个估计量 \(\hat\theta_0\) 的方差最小,则此估计量应当最好,并称此估计量 \(\hat\theta_0\)\(\theta\) 的最小方差无偏估计.

有效性的意义是,用 \(\hat\theta\) 估计 \(\theta\) 时,除无系统偏差外,还要求估计精度更高.

(2)例题

设总体 \(X\) 的均值 \(\mu\) 和方差 \(\sigma^2\) 存在,\(X_1,X_2,\cdots,X_n\) 是来自总体 \(X\) 的简单随机样本,证明估计 \(\mu\) 时,\(\hat\mu_1=\overline X=\frac{1}{n}\sum\limits_{i=1}^nX_i\)\(\hat\mu_2=\sum\limits_{i=1}^nc_iX_i\) 有效,其中 \(\sum\limits_{i=1}^nc_i=1, \ c_i > 0, \ i=1,2,\cdots,n.\)

证明:首先验证无偏性

\[E(\hat\mu_1)=\frac{1}{n}E(\sum_{i=1}^nX_i)=\mu\\ E(\hat\mu_2)=\sum_{i=1}^nc_iE(X_i)=\mu \]

因此 \(\hat\mu_1,\hat\mu_2\) 均为 \(\mu\) 的无偏估计.

验证有效性

\[\begin{aligned} &Var(\hat\mu_1)=Var(\overline X)=\frac{\sigma^2}{n},\\ &Var(\hat\mu_2)=Var(\sum_{i=1}^nc_iX_i)=\sum_{i=1}^n(c_i^2Var(X_i))=\sigma^2\sum_{i=1}^nc_i^2. \end{aligned} \]

根据多元基本不等式可知,

\[(\sum_{i=1}^nc_i)^2 \leqslant n\sum_{i=1}^nc_i^2 \]

于是

\[Var(\hat\mu_1)=\frac{\sigma^2}{n}=\frac{\sigma^2}{n}(\sum_{i=1}^nc_i)^2 \leqslant \sigma^2\sum_{i=1}^nc_i^2=Var(\hat\mu_2) \]

\(\hat\mu_1\)\(\hat\mu_2\) 有效.

参考:

  • 茆诗松 《概率论与数理统计》 P270
  • 薛毅 《统计建模与R软件》P166

1.3.3 相合性

(1)相合性的统计学意义

\(\theta \in \Theta\) 为未知参数,\(\hat\theta_n=\hat\theta_n(x_1,x_2,\cdots,x_n)\)\(\theta\) 的一个估计量,\(n\) 是样本容量,若对任意 \(\varepsilon>0\),有

\[\lim\limits_{n\to\infty}P(|\hat\theta_n-\theta|\geq\varepsilon)=0 \]

则称 \(\hat\theta_n\) 为参数 \(\theta\) 的相合估计.

如果把依赖于样本量 \(n\) 的估计量 \(\hat\theta_n\) 看作一个随机变量序列,相合性就是 \(\hat\theta_n\) 依概率收敛于 \(\theta\),所以证明估计的相合性可应用依概率收敛的性质及各种大数定律.

参考:茆诗松 《概率论与数理统计教程》P274

(2)相关定律

定理1\(\hat\theta_n=\hat\theta_n(x_1,x_2,\cdots,x_n)\)\(\theta\) 的一个估计量,若

\[\lim\limits_{n\to\infty}E(\hat\theta_n)=\theta,\quad \lim\limits_{n\to\infty}Var(\hat\theta_n)=0 \]

\(\hat\theta_n\)\(\theta\) 的相合估计.

证明:即证\(\forall \varepsilon >0\),有

\[\lim\limits_{n\to\infty}P(|\hat\theta_n-\theta|\geq\varepsilon)=0 \]

由于 \(\lim\limits_{n \to \infty}E(\hat\theta_n)=\theta\),可知当 \(n \to \infty\) 时有

\[|E(\hat\theta_n)-\theta|<\frac{\varepsilon}{2}. \]

而当 \(|\hat\theta_n-E(\hat\theta_n)| < \frac{\varepsilon}{2}\) 时,有

\[|\hat\theta_n-\theta|=|\hat\theta_n-E(\hat\theta_n)+E(\hat\theta_n)-\theta|\leq|\hat\theta_n-E(\hat\theta_n)|+|E(\hat\theta_n)-\theta|<\varepsilon, \]

\[\bigg\{|\hat\theta_n-E(\hat\theta_n)| < \frac{\varepsilon}{2}\bigg\} \subset \bigg\{|\hat\theta_n-\theta| < \varepsilon\bigg\}, \]

等价于

\[\bigg\{|\hat\theta_n-E(\hat\theta_n)| \geqslant \frac{\varepsilon}{2}\bigg\} \supset \bigg\{|\hat\theta_n-\theta| \geqslant \varepsilon\bigg\}. \]

于是根据切比雪夫不等式可得

\[P(|\hat\theta_n-\theta|\geq\varepsilon) \leq P(|\hat\theta_n-E(\hat\theta_n)| \geqslant \frac{\varepsilon}{2})\leq\frac{4}{\varepsilon^2}Var(\hat\theta_n) \to 0 \ \ (n \to \infty). \]

证毕

参考:


定理2\(\hat\theta_{n1},\hat\theta_{n2},\cdots,\hat\theta_{nk}\) 分别是 \(\theta_1,\theta_2,\cdots,\theta_n\) 的相合估计,\(\eta = g(\theta_1,\theta_2,\cdots,\theta_k)\)\(\theta_1,\theta_2,\cdots,\theta_k\) 的连续函数,则 \(\hat\eta_n = g(\hat\theta_{n1},\hat\theta_{n2},\cdots,\hat\theta_{nk})\)\(\eta\) 的相合估计.

证明:要证 \(\hat\eta_n = g(\hat\theta_{n1},\hat\theta_{n2},\cdots,\hat\theta_{nk})\)\(\eta\) 的相合估计,即证对于任意的 \(\varepsilon>0\),有

\[\lim\limits_{n\to\infty}P(|\hat\eta_n-\eta|<\varepsilon)=1 \Longleftrightarrow \lim\limits_{n\to\infty}P(|g(\hat\theta_{n1},\hat\theta_{n2},\cdots,\hat\theta_{nk})-g(\theta_1,\theta_2,\cdots,\theta_k)|<\varepsilon)=1 \]

由于 \(\eta = g(\theta_1,\theta_2,\cdots,\theta_k)\) 是连续函数,因此对于任意给定的 \(\varepsilon>0\),存在 \(\delta>0\),当 \(|\pmb{\hat\theta_{n}}-\pmb{\theta}|<\delta\) 时,有

\[|g(\hat\theta_{n1},\hat\theta_{n2},\cdots,\hat\theta_{nk})-g(\theta_1,\theta_2,\cdots,\theta_k)|<\varepsilon. \]

于是

\[\bigg\{|\pmb{\hat\theta_{n}}-\pmb{\theta}|<\delta\bigg\}\subset \bigg\{|g(\hat\theta_{n1},\hat\theta_{n2},\cdots,\hat\theta_{nk})-g(\theta_1,\theta_2,\cdots,\theta_k)|<\varepsilon\bigg\}, \]

显然又有

\[\bigg\{\bigcap_{j=1}^k\{|\hat\theta_{nj}-\theta_j|<\delta\}\bigg\} \subset \bigg\{|\pmb{\hat\theta_{n}}-\pmb{\theta}|<\delta\bigg\},\quad j=1,2,\cdots,k. \]

因此只需证明

\[P\bigg(\bigcap_{j=1}^k\{|\hat\theta_{nj}-\theta_j|<\delta\}\bigg) \to 1, \quad j=1,2,\cdots,k. \]

由于 \(\hat\theta_{n1},\hat\theta_{n2},\cdots,\hat\theta_{nk}\) 分别是 \(\theta_1,\theta_2,\cdots,\theta_n\) 的相合估计,因此对给定的 \(\delta\),任意 \(v>0\),存在正整数 \(N\),使得当 \(n\geq N\) 时,

\[P(|\hat\theta_{nj}-\theta_j|\geq\delta) < v,\quad j=1,2,\cdots,k. \]

于是

\[\begin{aligned} P\bigg(\bigcap_{j=1}^k\{|\hat\theta_{nj}-\theta_j|<\delta\}\bigg) &=1-P\bigg(\bigcup_{j=1}^k\{|\hat\theta_{nj}-\theta_j|\geq\delta\}\bigg)\\ &\geq1-\sum_{j=1}^kP(|\hat\theta_{nj}-\theta_j|\geq\delta)\\ &>1-kv. \end{aligned} \]

\(v\) 的任意性可知,

\[P\bigg(\bigcap_{j=1}^k\{|\hat\theta_{nj}-\theta_j|<\delta\}\bigg) \to 1 \ (n\to\infty), \quad j=1,2,\cdots,k. \]

\(\hat\eta_n = g(\hat\theta_{n1},\hat\theta_{n2},\cdots,\hat\theta_{nk})\)\(\eta\) 的相合估计.

参考:

posted @ 2022-10-06 19:34  代数小萌新  阅读(330)  评论(0编辑  收藏  举报