07 参数估计 | 概率论与数理统计
1. 点估计
1. 点估计
- 点估计问题:设总体\(X\)的分布函数的类型为已知,但是它的某些参数是未知的,通过总体的一个样本来估计总体未知参数的值的问题称为参数的 点估计 问题
- 点估计:设总体\(X\)的分布函数\(F(x,\theta)\),其中\(\theta\)为待估计的参数,\(X_1, X_2, \dots, X_n\)是\(X\)的一个样本,\(x_1,x_2,\dots,x_n\)是相应的样本值;用样本\(X_1, X_2, \dots, X_n\)构造一个适当的统计量\(\hat{\theta}(X_1, X_2, \dots, X_n)\)用他的观察值\(\hat{\theta}(x_1, x_2, \dots, x_n)\)作为未知参数\(\theta\)的 近似值,称\(\hat{\theta}(X_1, X_2, \dots, X_n)\)为\(\theta\)的 估计量,称\(\hat{\theta}(x_1, x_2, \dots, x_n)\)为\(\theta\)的 估计值
- 点估计常用方法
- 矩估计法
- 极大似然估计法
2. 矩估计法
- 基本思想:用样本矩估计总体矩,因为由大数定律知,样本的\(k\)阶矩依概率收敛与总体的\(k\)阶矩,这种用样本(原点)矩作为总体(原点)矩的估计量的方法称为 矩估计法
- 方法:设总体\(X\)的分布函数为\(F(x;\theta_1,\theta_2,\dots,\theta_k)\),其中\(\theta_1,\theta_2,\dots,\theta_k\)为待估计参数,如果\(\mu_i = E(X^i)(i=1,2,\dots,k)\)存在,\(\mu_i\)为\(\theta_1,\theta_2,\dots,\theta_k\)的函数,记\(\mu_i = \mu_i(\theta_1,\theta_2,\dots,\theta_k)\),\(X_1, X_2, \dots, X_n\)为总体\(X\)的样本,用\(A_i\)来估计\(E(X^i)\),建立\(k\)个方程\[\left\{\begin{matrix} A_1 = \mu_1(\theta_1,\theta_2,\dots,\theta_k) \\ A_2 = \mu_2(\theta_1,\theta_2,\dots,\theta_k) \\ \dots\\ A_k = \mu_k(\theta_1,\theta_2,\dots,\theta_k) \end{matrix}\right. \Longrightarrow \left\{\begin{matrix} \hat{\theta_1} = \theta_1(A_1, A_2, \dots, A_k) \\ \hat{\theta_2} = \theta_2(A_1, A_2, \dots, A_k) \\ \dots \\ \hat{\theta_k} = \theta_k(A_1, A_2, \dots, A_k) \\ \end{matrix}\right. \]用\(\hat{\theta_i}\)作为\(\theta_i\)的估计量——矩估计量
- 常见分布的矩估计量
- 均匀分布\(X\sim U(a,b)\)
- \(\hat{a} = \overline{X} - \sqrt{\frac{3}{n}\sum_{i=1}^n(X_i-\overline{X})^2}\)
- \(\hat{b} = \overline{X} + \sqrt{\frac{3}{n}\sum_{i=1}^n(X_i-\overline{X})^2}\)
- 指数分布\(f(x) = \frac{1}{\theta}e^{-\frac{x}{\theta}}\)
- \(\hat{\theta} = \overline{X}\)
- (0-1)分布
- \(\hat{p} = \overline{X}\)
- 二项分布\(X\sim b(n,p)\)\[\hat{n} = \frac{\overline{X}^2}{\overline{X} - \frac{1}{n}\sum_{i = 1}^n(X_i - \overline{X})^2},\hat{p} = 1 - \frac{\frac{1}{n}\sum_{i=1}^n(X_i - \overline{X})^2}{\overline{X}} \]
- 正态分布\(X\sim N(\mu, \sigma^2)\)
- \(\hat{\mu} = \overline{X}\)
- \(\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n(X_i - \overline{X})^2\)
- 泊松分布\(X\sim \pi(\lambda)\)
- \(\hat{\lambda} = \overline{X}\)
- \(\hat{\lambda} = \frac{1}{n}\sum_{i=1}^n(X_i - \overline{X})^2\)
- 均匀分布\(X\sim U(a,b)\)
3. 极大似然估计法
- 基本思想:概率最大的事件最可能出现;参数估计的极大似然法是要选取这样的值来作为参数的估计值,使得当参数取这一数值时,观测结果出现的可能性为最大
- 似然函数
- 离散型:设总体\(X\)的分布律\(P(X=x) = p(x;\theta)\),其中\(\theta\in\Theta\)为待估计的参数,\(\Theta\)是\(\theta\)可能取值的范围,设\(X_1, X_2, \dots, X_n\)是来自\(X\)的样本,\(x_1, x_2, \dots, x_n\)是样本观察值,则\((X_1, X_2, \dots, X_n)\)的联合分布率\(P(X_1 = x_1, X_2 = x_2, \dots, X_n = x_n) = \prod_{i=1}^np(x_i;\theta)\),对固定的样本观察值\(x_1, x_2, \dots, x_n\),它是未知参数的函数,记为\(L(\theta) = L(x_1, x_2, \dots, x_n;\theta) = \prod_{i=1}^np(x_i;\theta),\theta\in\Theta\),称之为样本的 似然函数
- 连续型:设总体\(X\)的概率密度函数为\(f(x;\theta),\theta\in\Theta\)为未知参数,此时样本的似然函数为\(L(\theta) = L(x_1, x_2, \dots, x_n;\theta) = \prod_{i=1}^nf(x_i;\theta),\theta\in\Theta\)
- 最大似然估计:如果存在\(\hat{\theta} = \hat{\theta}(x_1, x_2, \dots, x_n)\),使得\(L(\hat{\theta})=\max_{\theta\in\Theta}L(\theta)\),则称\(\hat{\theta}(x_1, x_2, \dots, x_n)\)为\(\theta\)的 最大似然估计值,\(\hat{\theta}(X_1, X_2, \dots, X_n)\)的 最大似然估计量
- 如何求\(L(\theta)\)的最大值
- 根据函数的单调性分析
- 对数似然方程:由于\(L(\theta)\)和\(\ln L(\theta)\)在\(\Theta\)上有相同的最大值点,因此可以求\(\ln L(\theta)\)关于\(\theta\)的最大值点,当\(\ln L(\theta)\)关于\(\theta\)可微时,必然满足方程\(\frac{\partial\ln L(\theta_i)}{\partial\theta_i},(i=1,2,\dots,k)\),然后确定其为最大值点
- 常见分布的最大似然估计量
- (0-1)分布
- \(\hat{p} = \overline{X}\)
- 正态分布\(X\sim N(\mu, \sigma^2)\)
- \(\hat{\mu} = \overline{X}\)
- \(\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(X_i - \overline{X})^2\)
- 均匀分布\(X\sim U(a,b)\)
- \(\hat{a} = \min_{1\le i\le n} X_i\)
- \(\hat{b} = \max_{1\le i\le n} X_i\)
- 指数分布\(f(x) = \frac{1}{\theta}e^{-\frac{x}{\theta}}\)
- \(\hat{\theta} = \overline{X}\)
- 泊松分布\(X\sim \pi(\lambda)\)
- \(\hat{\lambda} = \overline{X}\)
- (0-1)分布
4. 矩估计和极大似然估计的联系和区别
- 极大似然法克服了矩估计法的一些缺点, 它利用总体的样本和分布函数表达形式所提供的信息建立未知参数的估计量, 同时它也不要求总体原点矩存在
- 极大似然估计量一般要解似然方程,而有时解似然方程很困难,只能用数值方法求似然方程的近似解
- 在统计问题中往往先使用最大似然估计法,在最大似然估计法使用不方便时,再用矩估计法
2. 估计量的评选标准
1. 无偏性
- 引入原因:估计量是随机变量,对于不同的样本值会得到不同的估计值. 我们希望估计值在未知参数真值附近摆动,而它的期望值等于未知参数的真值. 这就出现了无偏性这个标准
- 无偏估计量:如果估计量\(\hat{\theta} = \theta(X_1,X_2,\dots,X_n)\)的数字期望\(E(\hat{\theta})\)存在,且对于任意\(\theta\in\Theta\)有\(E(\hat{\theta}) = \theta\),则称\(\hat{\theta}\)是\(\theta\)的 无偏估计量
2. 有效性
- 引入原因:用\(\hat{\theta}\)估计\(\theta\)时,仅具有无偏性是不够的,我们希望\(\hat{\theta}\)的取值能集中于\(\theta\)附近,而且密集的程度越高越好;方差是描述随机变量取值的集中程度的,所以无偏估计以方差小者为好,因此提出所谓 有效性 标准
- 有效:设\(\hat{\theta_1}\)与\(\hat{\theta_2}\)都是参数\(\theta\)的无偏估计,若\(D(\hat{\theta_1})\le D(\hat{\theta_2})\),则称\(\hat{\theta_1}\)较\(\hat{\theta_2}\) 有效
3. 相合性
- 引入原因:无偏性和有效性是在样本容量\(n\)一定的情况下对估计量提出的要求,一个好的估计量\(\hat{\theta}\),当样本容量增大时, \(\hat{\theta}\)的取值与参数\(\theta\) 的真值任意接近的可能性应该更大,因此,还有所谓 一致性 标准
- 相合估计量:设\(\hat{\theta_n}\)是未知参数\(\theta\)的估计量,如果对于\(\forall\varepsilon>0\),有\[\lim_{n\to\infty}P(|\hat{\theta} - \theta|<\varepsilon) = 1 \]则称\(\hat{\theta}\)为\(\theta\)的 相合估计量,即\(\hat{\theta}\overset{P}{\rightarrow}\theta\)
- 定理:若\(\hat{\theta_n}\) 是\(\theta\) 的无偏估计量,且当\(n\to\infty\)时,\(D(\hat{\theta_n})\to0\)则\(\hat{\theta_n}\) 是\(\theta\) 的 相合估计量
3. 区间估计
1. 置信区间的概念
- 置信区间:设总体\(X\)的分布函数\(F(x;\theta)\),其中\(\theta\)为未知参数,\(X_1, X_2, \dots, X_n\)是取自总体的样本,对给定值\(\alpha(0<\alpha<1)\),如果存在统计量\(\theta_1,\theta_2\)满足\(P(\theta_1<\theta<\theta_2)\ge1-\alpha\),则称随机区间\((\theta_1,\theta_2)\)为\(\theta\)置信水平 为\(1-\alpha\)的置信区间,\(\theta_1,\theta_2\)分别称为置信度为\(1-\alpha\)的 双侧置信下限和 置信上限
- 评价置信区间好坏标准
- 精度:\(\theta_2 - \theta_1\)越小越好
- 置信度:\(P(\theta_1<\theta<\theta_2)\)越大越好
- 置信度与估计精度
- 估计精度:置信区间的长度\(\theta_2 - \theta_1\)
- 置信度与估计精度是一对矛盾的量
- 置信水平高,则区间大,区间精度差
- 置信区间小,则精度高,但置信水平低
- 一般准则:在保证置信度的条件下尽可能提高精度
2. 寻求置信区间的方法
- 基本思想:在点估计的基础上,构造合适的含样本及待估参数的函数\(U\),且已知 \(U\) 的分布,再根据给定的置信度导出待估参数置信区间
- 一般步骤
- 选取未知参数\(\theta\) 的某个较优估计量\(\hat{\theta}\)(如无偏估计)
- 围绕\(\hat{\theta}\)构造一个与待估参数\(\theta\)有关的函数\(U\), 且分布已知
- 对给定的置信水平\(1-\alpha\),确定\(\lambda_1\)与\(\lambda_2\),使\(P(\lambda_1<U<\lambda_2)=1-\alpha\)
- 对上式作恒等变形,化为\(P(\theta_1<\theta<\theta_2)=1-\alpha\),则\((\theta_1,\theta_2)\)就是\(\theta\)的置信水平为\(1-\alpha\)的置信区间
4. 正态总均值与方差的区间估计
1. 单个正态总体
-
均值\(\mu\)的置信区间
-
\(\sigma^2\)已知:\(\mu\)的置信度水平为\(1-\alpha\)的置信区间(\(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\))
\[(\overline{X}-\frac{\sigma}{\sqrt{n}}z_{\alpha/2}, \overline{X}+\frac{\sigma}{\sqrt{n}}z_{\alpha/2}) \] -
\(\sigma^2\)未知:\(\mu\)的置信度水平为\(1-\alpha\)的置信区间(\(\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(0,1)\))
\[(\overline{X}-\frac{S}{\sqrt{n}}t_{\alpha/2}(n-1), \overline{X}+\frac{S}{\sqrt{n}}t_{\alpha/2}(n-1)) \]
-
-
方差\(\sigma^2\)的置信区间(\(\mu\)未知):\(\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\)
\[(\frac{(n-1)S^2}{\chi_{\alpha/2}^2(n-1)}, \frac{(n-1)S^2}{\chi_{1-\alpha/2}^2(n-1)}) \]
2. 两个正态总体
- 两个总体均值差\(\mu_1 - \mu_2\)的置信区间
- \(\sigma_1^2,\sigma_2^2\)已知:\(\mu_1 - \mu_2\)的置信区间\[(\overline{X} - \overline{Y}- z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, \overline{X} - \overline{Y} + z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}) \]
- \(\sigma_1^2 = \sigma_2^2 = \sigma^2\),但是\(\sigma^2\)未知:\(\mu_1 - \mu_2\)的置信区间\[(\overline{X} - \overline{Y}\pm t_{\alpha/2}(n_1 + n_2 - 2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}) \]其中\[S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} \]
- \(\sigma_1^2,\sigma_2^2\)已知:\(\mu_1 - \mu_2\)的置信区间
- 两个总体方差比\(\sigma_1^2/\sigma_2^2\)
- 置信区间:\(\mu_1,\mu_2\)未知:\(\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)\)\[(\frac{S_1^2}{S_2^2}\frac{1}{F_{\alpha/2}(n_1-1,n_2-1)},\frac{S_1^2}{S_2^2}\frac{1}{F_{1-\alpha/2}(n_1-1,n_2-1)}) \]
- 置信区间:\(\mu_1,\mu_2\)未知:\(\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)\)
- 正态总体均值、方差的置信区间总结
5. (0-1)分布参数的区间估计
1. (0-1)分布参数的区间估计
- (0-1)分布参数的区间估计:设总体\(X\sim b(1,p)\),\(p\)为未知参数,\(X\)的分布律为\(f(x;p) = p^x(1-p)^{1-x},x=0,1\),取\(X_1, X_2, \dots, X_n(n>50)\)作为\(X\)的大样本,已知(0-1)分布的均值和方差分别为\(\mu = p, \sigma^2 = p(1-p)\),则由中心极限定理\[\frac{\sum_{i=1}^nX_i - np}{\sqrt{np(1-p)}} = \frac{n\overline{X} - np}{\sqrt{np(1-p)}}\stackrel{近似}{\sim}N(0,1) \]于是有枢轴量\[P(-z_{\alpha/2}<\frac{n\overline{X} - np}{\sqrt{np(1-p)}}<z_{\alpha/2})\approx 1-\alpha \]
- \(p\)的近似置信度为\(1-\alpha\)置信区间为\((p_1,p_2)\),其中\(p_1 = \frac{1}{2a}(-b-\sqrt{b^2-4ac}), p_2 = \frac{1}{2a}(-b+\sqrt{b^2-4ac})\)
由\[ (n+z_{\alpha/2}^2)p^2 - (2n\overline{X}+z_{\alpha/2}^2)p+n\overline{X}^2<0 \]得到,记\[a = n+z_{\alpha/2}^2, b = - (2n\overline{X}+z_{\alpha/2}^2), c = n\overline{X}^2 \]
6. 单侧置信区间
1. 单侧置信区间
- 单侧置信下限:对于给定值\(\alpha(0<\alpha<1)\),如果由样本\(X_1, X_2, \dots, X_n\)确定的统计量\(\underline{\theta} = \underline{\theta}(X_1, X_2, \dots, X_n),\)对\(\forall\theta\in\Theta\)满足\(P(\theta>\underline{\theta}) = 1-\alpha\),成随机区间\((\underline{\theta},+\infty)\)是\(\theta\)的置信水平为\(1-\alpha\)的 单侧置信区间,\(\underline{\theta}\)称为\(\theta\)的置信水平为\(1-\alpha\)的 单侧置信下限
- 单侧置信上限:对于给定值\(\alpha(0<\alpha<1)\),如果由样本\(X_1, X_2, \dots, X_n\)确定的统计量\(\overline{\theta} = \overline{\theta}(X_1, X_2, \dots, X_n),\)对\(\forall\theta\in\Theta\)满足\(P(\theta<\overline{\theta}) = 1-\alpha\),成随机区间\((-\infty,\overline{\theta})\)是\(\theta\)的置信水平为\(1-\alpha\)的 单侧置信区间,\(\overline{\theta}\)称为\(\theta\)的置信水平为\(1-\alpha\)的 单侧置信上限