数学一|概统|六、数理统计的基本概念
考试要求
- 理解总体、简单随机样本、统计量、样本均值、样本方差及样本矩的概念,其中样本方差定义为 \(S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\);
- 了解 \(\chi^2\) 分布、\(t\) 分布和 \(F\) 分布的概念和性质,了解上侧 \(\alpha\) 分位数的概念并会查表计算;
- 了解正态总体的常用抽样分布;
1. 统计基本概念
所要调查的对象全体叫做总体 \(\text{(population)}\),总体中每个成员叫做个体。总体一般用随机变量作为数学模型。
从总体 \(X\) 中,随机地抽取 \(n\) 个个体 \(X_1,X_2,\ldots,X_n\),若 \(n\) 个个体 \(X_1,X_2,\ldots,X_n\) 相互独立,且 \(X_i(i=1,2,\ldots,n)\) 与总体 \(X_i\) 有相同的概率分布,则称它们是来自 \(X\) 的简单随机样本(容量为 \(n\));
利用样本对总体进行估计的方法称为估计量 \(\text{(estimator)}\),由估计的方法得到的值称为估计值,常用的估计量(统计量)有下面几种:
-
样本均值:\(\overline{X}=\frac1n\sum_{i=1}^nX_i\);
-
样本方差:\(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 = \frac{1}{n-1}\left(\sum_{i=1}^nX_i^2-n\overline{X}^2\right)\);
使用 \(\frac{1}{n-1}\) 修正后的样本方差,不仅满足一致性(相合性)同时也满足无偏性;未修正的样本方差只满足一致性(相合性)
-
样本标准差:\(S = \sqrt{S^2}\);
如果总体 \(X\)(不管服从什么分布,只要其均值和方差存在)具有数学期望 \(EX = \mu\) 和方差 \(D(X) = \sigma^2\),则总有
\[ E(\overline{X}) = E(X) = \mu,\,\,D(\overline{X}) = \frac{D(X)}{n} = \frac{\sigma^2}{n},\,\,E(S^2) = D(X) = \sigma^2 \]- 前两个公式可用期望和方差的线性法则得到。方差的线性法则需要每个随机变量独立,期望的线性法则不需要这个条件;
-
\[ \begin{align} ES^2 &= \frac{1}{n-1}\sum_{i=1}^nE(X_i-\overline{X})^2 = \frac{1}{n-1}\sum_{i=1}^n(EX_i^2 -2E(X_i\overline{X}) + E\overline{X}^2)\nonumber\\[1.5ex] &= \frac{1}{n-1}\sum_{i=1}^n\left[\sigma^2+\mu_2 - \frac{2(n\mu^2+\sigma^2)}{n} + \frac{\sigma^2}{n} + \mu^2\right] = \sigma^2\nonumber \end{align} \]
- 注意 \(E(X_i\overline{X})\) 的求解,两者并不独立,所以需要将样本均值展开,再分别求期望。
-
\(k\) 阶样本原点矩:\(A_k = \frac1n\sum_{i=1}^nX_i^k\,\,(k=1,2,\ldots)\);
-
\(k\) 阶样本中心矩:\(B_k = \frac1n\sum_{i=1}^n(X_i-\overline{X})^k\,\,(k=1,2,\ldots)\);
2. 统计三大分布
在总体分布为正态时,可以求得许多重要的统计量的抽样分布,这些都与下面讨论的三种分布有密切关系。
2.1. 卡方 ( \(\chi^2\) ) 分布
-
定义:设 \(X_1,X_2,\cdots,X_n\,\, i.i.d.\,\,\sim N(0,1)\) 令 \(X = \sum_{i = 1}^nX_i^2\),则称 \(X\) 服从自由度为 \(n\) 的 \(\chi^2\) 分布,记为 \(X\sim \chi_n^2\)。
卡方分布中的自由度一般指该随机变量最终包含的变量的个数
由图可得,\(\chi_n^2\) 密度函数的支撑集(即使密度函数为正的自变量的集合)为 \((0, +\infty)\)。随着自由度的增大,卡方分布的密度曲线逐渐趋向于对称,\(n\) 越小,曲线越不对称。
-
\(\chi^2\) 分布的上侧 \(\alpha\) 分位数
若 \(X\sim\chi^2(n)\),记 \(P(X>c) = \alpha\),则 \(c = \chi_\alpha^2(n)\),\(c\) 称为 \(\chi^2(n)\) 的上侧 \(\alpha\) 分位数。对于给定的 \(\alpha\text{ (0<}\alpha\text{<1)}\),有
\[P(X>\chi_\alpha^2(n)) = \int_{\chi_\alpha^2(n)}^{+\infty}f(x)dx = \alpha \] -
卡方分布的性质:
- \(X\sim \chi^2(n)\Rightarrow E(X) = n, \,\,Var(X) = 2n\)
\[\begin{align} &X\sim N(0, \sigma^2)\Rightarrow E(X^2) = \sigma^2,\,\,D(X^2)=2\sigma^4&\nonumber\\[1.5ex] &\Rightarrow E[\chi^2(n)] = n,\,\, D[\chi^2(n)] = 2n\nonumber \end{align} \]-
设 \(Z_1\sim\chi^2(m),\,\,Z_2\sim\chi^2(n)\) 且 \(Z_1\) 和 \(Z_2\) 独立,则 \(Z_1 + Z_2 \sim \chi^2(m+n)\)
-
\(\frac{1}{\sigma^2}\sum_{i=1}^n(X_k-\mu)^2 \sim\chi^2(n)\)
\(\frac{1}{\sigma^2}\sum_{i=1}^n(X_k-\overline{X})^2 = \frac{(n-1)S^2}{\sigma^2} \sim\chi^2(n-1)\),这个结论理解就好,下面是上面结论的证明过程:
\[\begin{align} &X\sim N(\mu, \sigma^2)(\sigma > 0): X_1,X_2,\cdots,X_n&\nonumber\\[1.5ex] &\Rightarrow X_k\sim N(\mu,\sigma^2),\,\, k = 1\sim n,\,\,\text{相互独立}&\nonumber\\[1.5ex] &\Rightarrow \frac{X_k-\mu}{\sigma} \sim N(0,1),\,\, k = 1\sim n,\,\,\text{相互独立}&\nonumber\\[1.5ex] &\Rightarrow \frac{(X_k-\mu)^2}{\sigma^2} \sim \chi^2(1),\,\, k = 1\sim n,\,\,\text{相互独立}&\nonumber\\[1.5ex] &\Rightarrow \sum_{k=1}^n\frac{(X_k-\mu)^2}{\sigma^2} \sim \chi^2(n)\sim\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2&\nonumber\\[1.5ex] \end{align} \]上面是一个重要的结论,这意味着我们可以将一般的正态分布转换为卡方分布。下面是一个例子:
\[\begin{align} &X\sim N(0,4): X_1, X_2, X_3, X_4, X_5, X_6,\nonumber\\[1.5ex] &Y = aX_1^2 = b(X_2+X_3)^2 + c(X_4-X_5)^2\sim \chi^2(n)\nonumber\\[1.5ex] &\text{求: }a,\,\,b,\,\,c,\,\,n\nonumber \end{align} \]分析 \(\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2\) 的期望和方差可得:
\[\begin{align} &E\left [\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2\right ] = E[\chi^2(n)] = n = \frac{1}{\sigma^2}E\left [\sum_{k=1}^n(X_k - \mu)^2\right ],\,\,&\nonumber\\[1.5ex] &D\left [\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2\right ] = D[\chi^2(n)] = 2n=\frac{1}{\sigma^4}D\left [\sum_{k=1}^n(X_k - \mu)^2\right ],\,\,&\nonumber\\[1.5ex] &E\left [\sum_{k=1}^n(X_k - \mu)^2\right ] = n\sigma^2,\,\,D\left [\sum_{k=1}^n(X_k - \mu)^2\right ] = 2n\sigma^4&\nonumber\\[1.5ex] \end{align} \]注意上述结论的条件要求 \(X_k\) 服从正态分布,可以将此结论和统计量样本方差 \(S^2\) 的期望得到的推论进行比较,
\[E(S^2) = \sigma^2 \Rightarrow E\left [\sum_{k=1}^n(X_k - \overline{X})^2\right ] =E[(n-1)S^2] = (n-1)\sigma^2 \] - \(X\sim \chi^2(n)\Rightarrow E(X) = n, \,\,Var(X) = 2n\)
2.2. \(t\) 分布
-
定义:设随机变量 \(X\sim N(0,1),\,\,Y\sim\chi_n^2\) 且 \(X\) 和 \(Y\) 独立,则称
\[T = \frac{X}{\sqrt{Y/n}} \]为自由度为 \(n\) 的 \(t\) 分布,记作 \(t\sim t(n)\)。
\(t_n\) 的密度函数与标准正态分布 \(N (0, 1)\) 密度很相似,它们都是关于原点对称、单峰偶函数、在 \(x = 0\) 处达到极大。 但 \(t_n\) 的峰值低于 \(N (0, 1)\) 的峰值, \(t_n\) 的密度函数尾部都要比 \(N (0, 1)\) 的两侧尾部粗一些并且有 \(\lim_{n\to\infty}t_n(x)=\phi(x)\),其中 \(\phi(x)\) 为标准正态的概率密度函数。
此处的 \(t_n\) 为自由度为 \(n\) 的 \(t\) 分布
-
\(t\) 分布的上侧 \(\alpha\) 分位数
若 \(X\sim t(n)\),记 \(P(X>c) = \alpha\),则 \(c = t_\alpha(n)\),\(c\) 称为 \(t(n)\) 的上侧 \(\alpha\) 分位数。对于给定的 \(\alpha\text{ (0<}\alpha\text{<1)}\),有
\[P(X>t_\alpha(n)) = \int_{t_\alpha(n)}^{+\infty}f(x)dx = \alpha \]\(t\) 分布的概率密度函数为偶函数,所以 \(t\) 分布的下侧 \(\alpha\) 分位数 \(t_{1-\alpha}(n) = -t_\alpha(n)\),并且双侧 \(\alpha\) 分位数 \(t_{\alpha/2}(n)\) 满足:
\[P(|X|>t_{\alpha/2}(n)) = \alpha \] -
\(t\) 分布的性质:
- 若 \(T\sim t(n)\) 则当 \(n\geqslant 2\) 时,\(E(T) = 0\),当 \(n\geqslant 3\) 时, \(Var(T) = \frac{n}{n-2}\);
- 当 \(n\to\infty\) 时,\(t\) 分布的极限分布为 \(N(0,1)\);
2.3. \(F\) 分布
-
定义:设随机变量 \(X\sim\chi^2(m),\,\,Y\sim\chi^2(n)\),且 \(X\) 和 \(Y\) 独立,则称,
\[F = \frac{X/m}{Y/n} \]为自由度分别是 \(m\) 和 \(n\) 的 \(F\) 分布,记为 \(F\sim F(m,n)\)。
注意 \(m\) 和 \(n\) 是有顺序的,当 \(m\neq n\) 时,若将 \(m\) 和 \(n\) 的顺序颠倒,将得到另一个 \(F\) 分布。由上图可以看出,对于给定的 \(m = 10\),\(n\) 取不同值时,\(F\) 分布的概率密度函数的形状是偏态的, \(n\) 越小偏态越严重。
-
\(F\) 分布的上侧 \(\alpha\) 分位数
若 \(X\sim F(m,n)\),记 \(P(X>c) = \alpha\),则 \(c = F_\alpha(m,n)\),\(c\) 称为 \(F(m,n)\) 的上侧 \(\alpha\) 分位数。对于给定的 \(\alpha\text{ (0<}\alpha\text{<1)}\),有
\[P(X>F_\alpha(m,n)) = \int_{F_\alpha(m,n)}^{+\infty}f(x)dx = \alpha \] -
\(F\) 分布的相关性质:
-
若 \(Z\sim F(m,n)\),则 \(\frac1Z\sim F(m,n)\);
-
若 \(T\sim t(n)\),则 \(T^2\sim F(1,n)\);
-
\(F_{1-\alpha}(m,n) = \frac{1}{F_{\alpha}(n,m)}\);
以上性质中 \(1\) 和 \(2\) 是显然的,\(3\) 的证明不难。尤其性质 \(3\) 在求区间估计和假设检验问题时会常常用到。因为当 \(\alpha\) 为较小的数,如 \(\alpha = 0.05\) 或 \(\alpha = 0.01\), \(m, \,\,n\) 给定时, 从已有的 \(F\) 分布表上查不到 \(F_{m,n}(1 − 0.05)\) 和 \(F_{m,n}(1 − 0.01)\) 的值,但它们的值可利用性质 \(3\) 求得,因为 \(F_{n,m}(0.05)\) 和 \(F_{n,m}(0.01)\) 是可以通过查 \(F\) 分布表求得的。
若有 \(F_{m,n} \sim F(m,n)\),要证性质 \(3\),即证
\[\begin{align} &P(F_{m,n}\geqslant F_{1-\alpha}(m,n)) = 1-\alpha = P(F_{m,n}\geqslant 1/F_{\alpha}(n,m))\nonumber\\[1.5ex] &P(F_{m,n}\geqslant 1/F_{\alpha}(n,m))\nonumber\\[1.5ex] &=P(1/F_{n,m}\geqslant 1/F_{\alpha}(n,m))\nonumber\\[1.5ex] &=P(F_{n,m}\leqslant F_{\alpha}(n,m))\nonumber\\[1.5ex] &=1-\alpha\nonumber \end{align} \]
-
2.4. 分位数
满足 \(P(X>v_\alpha) = \int_{v_\alpha}^{+\infty}f(x)dx=\alpha\) 的数 \(v_\alpha\),称为上侧 \(\alpha\) 分位数;
满足 \(P(X>v_\alpha) = \int_{v_\alpha}^{+\infty}f(x)dx=1-\alpha\) 的数 \(v_\alpha\),称为下侧 \(\alpha\) 分位数;
满足 \(P(|X|>v_{\alpha/2}) =\alpha\) 的数 \(v_{\alpha/2}\),称为双侧 \(\alpha\) 分位数;
分位数的换算及性质:
- 换算:上侧 \(\alpha\) 分位数 = 下侧 \((1-\alpha)\) 分位数;
- 对称性:由 \(N(0,1)\) 与 \(t(n)\) 分布的对称性,有\[u_{1-\alpha} = u_\alpha,\,\,t_{1-\alpha}(n) = t_\alpha(n) \]由 \(\chi^2\) 与 \(F\) 分布具有非对称性,但由非负性可得\[0<\chi^2_{1-\alpha}(n)<\chi_\alpha^2(n),\,\,0<F_{1-\alpha}(m,n)<F_\alpha(m,n) \]
- \(F_{1-\alpha}(m,n) = [F_\alpha(m,n)]^{-1}\)
3. 正态总体样本均值和样本方差的分布
3.1. 正态总体线性函数的分布
设随机变量 \(X_1,\ldots,X_n\,\,i.i.d.\sim N(\mu, \sigma^2),\,\,c_1,c_2,\ldots,c_n\) 为常数,则有
特别地,当 \(c_1=\ldots=c_n = 1/n\),即 \(T = \frac1n\sum_{i=1}^nX_i = \overline{X}\) 时,有
证明思路:期望的线性法则,以及随机变量独立时方差的线性法则
3.2. 单个正态总体
设 \(X\sim N(\mu, \sigma^2),\,\,X_1,\ldots,X_n\) 是来自总体 \(X\) 的简单随机样本,\(\overline{X}=\frac1n\sum_{i=1}^nX_i,\,\,\) \(S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\) 分别为样本均值和样本方差,则有
-
样本均值的分布:
\[\overline{X}\sim N(\mu, \sigma^2/n),\,\,\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1),\,\,\frac{\overline{X} - \mu}{S/\sqrt{n}}\sim t(n-1) \]
\[\begin{align} &\overline{X}\sim N(\mu, \sigma^2/n)\Rightarrow\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\sim N(0,1),\nonumber\\ &\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\Rightarrow S^2/\sigma^2\sim \chi^2(n-1)/(n-1)\nonumber\\ &\Rightarrow T = \frac{(\overline{X}- \mu)/(\sigma/\sqrt{n})}{\sqrt{S^2/\sigma^2}} = \frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n-1)\nonumber \end{align} \] -
样本方差的分布:
\[\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2\sim \chi^2(n),\,\,\frac{(n-1)S^2}{\sigma^2} = \sum_{i=1}^n\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\sim\chi^2(n-1) \] -
\(\overline{X}\) 与 \(S^2\) 相互独立(这是正态总体特有的性质)。
待证
3.3. 两个正态总体
设随机变量 \(X_1,\ldots,X_{m}\) 与 \(Y_1,\ldots,Y_{n}\) 分别是来自正态总体 \(N(\mu_1, \sigma_1^2)\) 和 \(N(\mu_2, \sigma_2^2)\) 的样本,且这两个样本相互独立(注:指随机变量 \(X_1,\ldots,X_n\) 与 \(Y_1,\ldots,Y_n\) 相互独立)。设 \(\overline{X},S_X^2\) 和 \(\overline{Y},S_Y^2\) 为相应的样本均值和样本方差,\(S_{XY}^2\) 是总体 \(X\) 和 \(Y\) 的联合样本方差,则有
-
样本均值差的抽样分布:
\[\overline{X}-\overline{Y}\sim N\left(\mu_1-\mu_2,\frac{\sigma_1^2}{m} + \frac{\sigma_2^2}{n}\right),\,\,\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/m+\sigma_2^2/n}}\sim N(0,1) \] -
样本方差比的抽样分布:
\[F = \frac{S_X^2}{S_Y^2}·\frac{\sigma_2^2}{\sigma_1^2}\sim F(m-1,n-1) \]
\[F = \frac{\frac{(m-1)S_X^2}{\sigma_1^2}/(m-1)}{\frac{(n-1)S_Y^2}{\sigma_2^2}/(n-1)} = \frac{S_X^2}{S_Y^2}·\frac{\sigma_2^2}{\sigma_1^2}\sim F(m-1, n-1) \]
当 \(\sigma_1^2 = \sigma_2^2 \triangleq \sigma^2\) 时
\[T = \frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{S_{XY}}·\sqrt{\frac{mn}{m+n}}\sim t(m+n-2) \]\[W = \frac{(m+n-2)S_{XY}^2}{\sigma^2}\sim \chi^2(m+n-2) \]
\[\begin{align} &\overline{X}\sim N(\mu_1,\sigma^2/m),\,\,\overline{Y}\sim N(\mu_2,\sigma^2/n)\nonumber\\[1.5ex] &\Rightarrow \overline{X}-\overline{Y}\sim N\left(\mu_1-\mu_2, \left(\frac1m+\frac1n\right)\sigma^2\right)\nonumber\\[1.5ex] &\Rightarrow \frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{\sigma}\sqrt{\frac{mn}{m+n}}\sim N(0,1)\nonumber,\\[1.5ex] &(m-1)S_1^2/\sigma^2\sim\chi^2(m-1),\,\,(n-1)S_2^2/\sigma^2\sim\chi^2(n-1)\nonumber\\[1.5ex] &\Rightarrow \frac{(m-1)S_1^2+(n-1)S_2^2}{\sigma^2}\sim\chi^2(m+n-2)\nonumber\\[1.5ex] \end{align} \]由上述两个结论以及,\((\overline{X},\overline{Y})\) 与 \((S_1^2,S_2^2)\) 相互独立,由 \(t\) 分布的定义可得:
\[\begin{align} T &= \frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{\sigma}\sqrt{\frac{mn}{m+n}}\bigg/\sqrt{\frac{(m-1)S_1^2+(n-1)S_2^2}{\sigma^2(m+n-2)}}\nonumber\\ &=\frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{S_w}·\sqrt{\frac{mn}{m+n}}\sim t(m+n-2)\nonumber \end{align} \]
4. \(X(n)=\text{max}(X_1,X_2,\ldots,X_n)\) 和 \(X(n) = \text{min}(X_1,X_2,\ldots,X_n)\) 的分布
设总体 \(X\) 的分布函数为 \(F(x)\),\(X_1,X_2,\ldots,X_n\) 是来自总体 \(X\) 的简单随机样本,则统计量 \(X(n)=\text{max}(X_1,X_2,\ldots,X_n)\) 和 \(X(n) = \text{min}(X_1,X_2,\ldots,X_n)\) 的分布函数分别为
还不知道怎么来的
补充内容:一些分布的可加性
- 若 \(X\sim B(m, p),\,\,Y\sim B(n,p)\) 且相互独立,则 \(Z = (X+Y)\sim B(m+n,p)\);
- 若 \(X\sim P(\lambda_1),\,\,Y\sim P(\lambda_2)\) 且相互独立,则 \(Z = (X+Y)\sim P(\lambda_1+\lambda_2)\);
- 若 \(X\sim N(\mu_1,\sigma_1^2),\,\,Y\sim N(\mu_2,\sigma_2^2)\) 且相互独立,则 \(Z = (X+Y)\sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)\);
- 若 \(X\sim\chi^2(m),\,\,Y\sim\chi^2(n)\) 且 \(X,\,\,Y\) 独立,则 \(Z = (X+Y)\sim\chi^2(m+n)\);