参数估计
目录
点估计的概念与无偏性
- 点估计:设\(x_1,x_2,x_3...x_n\)是来自总体的一个样本,则用于估计未知参数的估计量\(\hat \theta=\hat \theta(x_1,x_2...x_n)\)称为统计量\(\theta\)的点估计。
例如,样本平均值是总体均值的点估计,样本方差是总体方差的点估计。
- 无偏性:
- 渐近无偏估计:
- 有效性:设\(\hat \theta_1,\hat \theta_2\)都是\(\theta\)的无偏估计,若对于任意样本,
且至少存在一组样本使不等号严格成立,则称\(\hat \theta_1\)比\(\hat \theta_2\)有效。
矩估计及相合性
-
矩估计:用样本矩(如均值方差等)估计未知变量的方法。
-
相合性:\(\theta\)为未知参数,\(\hat \theta\)是\(\theta\)的一个估计量,\(n\)是样本容量,弱对于任意的\(\epsilon>0\),有
则称\(\hat\theta\)是\(\theta\)的一个相合估计。
- 定理:设\(\hat\theta\)是\(\theta\)的一个估计量,若
则\(\hat\theta\)是\(\theta\)的一个相合估计。
- 定理:若\(\hat\theta_1,\hat\theta_2,\hat\theta_3...\hat\theta_k\)是\(\theta_1,\theta_2,\theta_3...\theta_k\)的相合估计,\(\eta=\eta(\theta_1,\theta_2...\theta_k)\)是连续函数,则\(\hat\eta=\hat\eta(\hat\theta_1,\hat\theta_2,\hat\theta_3...\hat\theta_k)\)是\(\eta\)的相合估计
相合性被认为是估计量的一个基本要求。
最大似然估计与EM算法
最大似然估计(MLE,maximum likelihood estimation)
- 最大似然估计:设总体的概率密度函数为\(f(x;\theta)\),\(\theta\)为未知参数,样本的联合概率密度函数
称为样本的似然函数,对于统计量\(\hat\theta\)满足
称\(\hat\theta\)是\(\theta\)的最大似然估计。
最大似然估计基于这样一个想法:在一次抽样中获得该组数据的概率应当是最大的,因此,取使得联合概率最大的\(\hat\theta\)为\(\theta\)的估计值。
EM算法(Expectation-maximization algorithm)
- EM算法流程
输入:观察数据 \(x=(x_1,x_2,…x_n)\),联合分布$ p(x,z|\theta)$,条件分布 \(p(z|x,\theta)\), 极大迭代次数 J。
-
随机初始化模型参数\(\theta\)的初值\(\theta_0\)
-
\(for\space j \space in \space range(1,J+1)\):
-
a) E步:计算联合分布的条件概率期望:
\[Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)},\theta) \] -
b) M步:极大化 \(L(\theta)\),得到 \(\theta\):
\[\theta = arg \max \limits_{\theta}\sum\limits_{i=1}^m\sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}, z^{(i)}|\theta)} \] -
c) 重复E、M步骤直到\(\theta\)收敛
输出:模型参数\(\theta\)
EM算法针对含有隐含分布的数据,可以看作最大似然估计的一种计算方法,详细见其它文章。
最小方差无偏估计
均方误差(MSE,mean square error)
相合性是大样本下评价估计好坏的一个重要标准,小样本下使用均方误差。
注意到
因此,MSE由点估计的方差和偏差平方两部分组成。
最小方差无偏估计
对于参数估计问题,设\(\hat\theta\)是\(\theta\)的一个无偏估计,对于任意的一个\(\theta\)的无偏估计\(\widetilde{\theta}\),若有
则称\(\hat\theta\)是\(\theta\)的一致最小方差无偏估计,记为UMVUE(Uniformly Minimum-Variance Unbiased Estimator)
有限总体的抽样分布
对于无限总体,或有放回的抽样,由中心极限定理可知,当样本容量\(n\)较大时,有随机变量\(X\sim N(\mu,\frac {\sigma^2}{n})\),当总体有限,并且抽样为无放回抽样时,各样本不满足独立同分布的要求,因此,不服从上述分布,均值、方差与上述计算方法不同。
比率p的抽样分布
考虑以下有限总体的场景,总体容量为\(N\),其中事件\(A\)的个体数为\(M\),样本容量为\(n\),其中事件\(A\)的个体数为\(m\),总体中事件A发生的概率为\(p=\frac MN\),样本中,事件\(A\)的比率为\(\widehat p=\frac mn\),则\(\widehat p\)是\(p\)的点估计。
有放回抽样
当抽样为有放回抽样时,显然有
证明见https://www.cnblogs.com/lifz-ml/p/15105108.html 常用离散分布
显然有
无放回抽样
当无放回抽样时,\(X\)不再服从\(n\)重伯努利分布,服从超几何分布
以上证明见https://www.cnblogs.com/lifz-ml/p/15105108.html 常用离散分布
其中,\(\sqrt{\frac{N-n}{N-1}}\)被称为有限总体修正系数。
均值\(\bar x\)的抽样分布
考虑如下场景,对于有限总体\(X\),其分布为离散型,可描述为以下分布列:
取值 | 概率 | 频数 |
---|---|---|
\(x_1\) | \(p_1\) | \(f_1\) |
\(x_2\) | \(p_2\) | \(f_2\) |
\(x_3\) | \(p_3\) | \(f_3\) |
\(x_4\) | \(p_4\) | \(f_4\) |
... | ... | ... |
\(x_k\) | \(p_k\) | \(f_k\) |
同样,总体容量为\(N\),样本容量为\(n\),总体均值为\(\mu\),总体方差为\(\sigma^2\)。
有放回抽样
显然每个样本\(X_i\)独立同分布于\(X\),当样本数\(n\)较大时,有
无论样本数大小,都有
无放回抽样
区间估计
- 置信区间:设\(\theta\)是总体的一个参数,对于给定的\(\alpha(0<\alpha<1)\),设有两个统计量\(\hat\theta_{L}\)和\(\hat\theta_{U}\),对任意的\(\theta\),有
则称\([\hat\theta_{L},\hat\theta_{U}]\)为置信度为\(1-\alpha\)的置信区间
置信区间的一个解释:在次抽样中,每次抽样所得的\(\hat\theta\)有\(1-\alpha\)的概率落在置信区间中。
- 枢轴量法
- 构造样本和待预测变量的函数\(G(x_1,x_2,..x_n,\theta)\)
- 适当选择两常数,使得
\[P(c\geq G \geq d)=1-\alpha \]- 若\(c\geq G \geq d\)能变形为\(\hat\theta_{L}\leq\theta\leq\hat\theta_{U}\),则置信区间可得。
单正态总体的置信区间
\(\sigma\)已知时\(\mu\)的置信区间
由于
因此,构造枢轴量
由标准正态分布表查得,置信度为\(1-\alpha\)的双侧置信区间为\([-z_{1-\frac \alpha 2},z_{1-\frac \alpha 2}]\),则\(\mu\)的置信区间为
\(\sigma\)未知时\(\mu\)的置信区间
由于
故,构造枢轴量
则置信区间为
\(\sigma^2\)的置信区间
以以下统计量为枢轴量
由于\(\chi^2\)是恒为非负的偏态分布,因此,枢轴量区间为
故\(\sigma^2\)的置信区间为
大样本置信区间
以上是正态分布下的枢轴量法,当分布不是正态分布时,寻找枢轴量及其分布会比较困难,因此,当数据量较大时,可用渐近分布构建近似置信区间。以上述抽样比率\(p\)为例,\(X\sim B(1,p)\),由中心极限定理,有以下近似分布
构造枢轴量
令\(\lambda = z^2_{1-\frac \alpha 2}\),则
上式两根为
当n较大时,可得近似区间
两正态总体下的置信区间
\(x_1,x_2,...x_m\)是\(N(\mu_1,\sigma^2_1)\)的样本,\(y_1,y_2,...y_n\)是\(N(\mu_2,\sigma^2_2)\)的样本,\(s_x\),\(s_y\)分别是两样本的方差。
\(\mu_1-\mu_2\)的置信区间
\(\sigma_1^2,\sigma^2_1\)已知时
此时有
枢轴量
则\(\mu_1-\mu_2\)的置信区间为
\(\sigma_1^2=\sigma^2_2=\sigma^2\)未知时
构造枢轴量
令
则置信区间为
\(\sigma_2^2=c\sigma^2_1\)且c已知时
方法同上,置信区间为
m,n都很大时的近似置信区间
由中心极限定理,可得以下近似分布
近似置信区间
\(\sigma_1^2/\sigma_2^2\)的置信区间
由
构造枢轴量
\(\sigma_1^2/\sigma_2^2\)的置信区间为