数学一|概统|六、数理统计的基本概念

考试要求

理解总体、简单随机样本、统计量、样本均值、样本方差及样本矩的概念，其中样本方差定义为 \(S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\)；
了解 \(\chi^2\) 分布、\(t\) 分布和 \(F\) 分布的概念和性质，了解上侧 \(\alpha\) 分位数的概念并会查表计算；
了解正态总体的常用抽样分布；

1. 统计基本概念

所要调查的对象全体叫做总体 \(\text{(population)}\)，总体中每个成员叫做个体。总体一般用随机变量作为数学模型。

从总体 \(X\) 中，随机地抽取 \(n\) 个个体 \(X_1,X_2,\ldots,X_n\)，若 \(n\) 个个体 \(X_1,X_2,\ldots,X_n\) 相互独立，且 \(X_i(i=1,2,\ldots,n)\) 与总体 \(X_i\) 有相同的概率分布，则称它们是来自 \(X\) 的简单随机样本（容量为 \(n\)）；

利用样本对总体进行估计的方法称为估计量 \(\text{(estimator)}\)，由估计的方法得到的值称为估计值，常用的估计量（统计量）有下面几种：

样本均值：\(\overline{X}=\frac1n\sum_{i=1}^nX_i\)；
样本方差：\(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 = \frac{1}{n-1}\left(\sum_{i=1}^nX_i^2-n\overline{X}^2\right)\)；

使用 \(\frac{1}{n-1}\) 修正后的样本方差，不仅满足一致性（相合性）同时也满足无偏性；未修正的样本方差只满足一致性（相合性）
样本标准差：\(S = \sqrt{S^2}\)；

如果总体 \(X\)（不管服从什么分布，只要其均值和方差存在）具有数学期望 \(EX = \mu\) 和方差 \(D(X) = \sigma^2\)，则总有

\[ E(\overline{X}) = E(X) = \mu,\,\,D(\overline{X}) = \frac{D(X)}{n} = \frac{\sigma^2}{n},\,\,E(S^2) = D(X) = \sigma^2 \]
- 前两个公式可用期望和方差的线性法则得到。方差的线性法则需要每个随机变量独立，期望的线性法则不需要这个条件；
- \[ \begin{align} ES^2 &= \frac{1}{n-1}\sum_{i=1}^nE(X_i-\overline{X})^2 = \frac{1}{n-1}\sum_{i=1}^n(EX_i^2 -2E(X_i\overline{X}) + E\overline{X}^2)\nonumber\\[1.5ex] &= \frac{1}{n-1}\sum_{i=1}^n\left[\sigma^2+\mu_2 - \frac{2(n\mu^2+\sigma^2)}{n} + \frac{\sigma^2}{n} + \mu^2\right] = \sigma^2\nonumber \end{align} \]
- 注意 \(E(X_i\overline{X})\) 的求解，两者并不独立，所以需要将样本均值展开，再分别求期望。
\(k\) 阶样本原点矩：\(A_k = \frac1n\sum_{i=1}^nX_i^k\,\,(k=1,2,\ldots)\)；
\(k\) 阶样本中心矩：\(B_k = \frac1n\sum_{i=1}^n(X_i-\overline{X})^k\,\,(k=1,2,\ldots)\)；

2. 统计三大分布

在总体分布为正态时，可以求得许多重要的统计量的抽样分布，这些都与下面讨论的三种分布有密切关系。

2.1. 卡方 ( \(\chi^2\) ) 分布

定义：设 \(X_1,X_2,\cdots,X_n\,\, i.i.d.\,\,\sim N(0,1)\) 令 \(X = \sum_{i = 1}^nX_i^2\)，则称 \(X\) 服从自由度为 \(n\) 的 \(\chi^2\) 分布，记为 \(X\sim \chi_n^2\)。

卡方分布中的自由度一般指该随机变量最终包含的变量的个数

由图可得，\(\chi_n^2\) 密度函数的支撑集（即使密度函数为正的自变量的集合）为 \((0, +\infty)\)。随着自由度的增大，卡方分布的密度曲线逐渐趋向于对称，\(n\) 越小，曲线越不对称。
\(\chi^2\) 分布的上侧 \(\alpha\) 分位数

若 \(X\sim\chi^2(n)\)，记 \(P(X>c) = \alpha\)，则 \(c = \chi_\alpha^2(n)\)，\(c\) 称为 \(\chi^2(n)\) 的上侧 \(\alpha\) 分位数。对于给定的 \(\alpha\text{ (0<}\alpha\text{<1)}\)，有

\[P(X>\chi_\alpha^2(n)) = \int_{\chi_\alpha^2(n)}^{+\infty}f(x)dx = \alpha \]
卡方分布的性质：
- \(X\sim \chi^2(n)\Rightarrow E(X) = n, \,\,Var(X) = 2n\)
  
  直接的证明过程
\[\begin{align} &X\sim N(0, \sigma^2)\Rightarrow E(X^2) = \sigma^2,\,\,D(X^2)=2\sigma^4&\nonumber\\[1.5ex] &\Rightarrow E[\chi^2(n)] = n,\,\, D[\chi^2(n)] = 2n\nonumber \end{align} \]
- 设 \(Z_1\sim\chi^2(m),\,\,Z_2\sim\chi^2(n)\) 且 \(Z_1\) 和 \(Z_2\) 独立，则 \(Z_1 + Z_2 \sim \chi^2(m+n)\)
- \(\frac{1}{\sigma^2}\sum_{i=1}^n(X_k-\mu)^2 \sim\chi^2(n)\)
  
  \(\frac{1}{\sigma^2}\sum_{i=1}^n(X_k-\overline{X})^2 = \frac{(n-1)S^2}{\sigma^2} \sim\chi^2(n-1)\)，这个结论理解就好，下面是上面结论的证明过程：
\[\begin{align} &X\sim N(\mu, \sigma^2)(\sigma > 0): X_1,X_2,\cdots,X_n&\nonumber\\[1.5ex] &\Rightarrow X_k\sim N(\mu,\sigma^2),\,\, k = 1\sim n,\,\,\text{相互独立}&\nonumber\\[1.5ex] &\Rightarrow \frac{X_k-\mu}{\sigma} \sim N(0,1),\,\, k = 1\sim n,\,\,\text{相互独立}&\nonumber\\[1.5ex] &\Rightarrow \frac{(X_k-\mu)^2}{\sigma^2} \sim \chi^2(1),\,\, k = 1\sim n,\,\,\text{相互独立}&\nonumber\\[1.5ex] &\Rightarrow \sum_{k=1}^n\frac{(X_k-\mu)^2}{\sigma^2} \sim \chi^2(n)\sim\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2&\nonumber\\[1.5ex] \end{align} \]
上面是一个重要的结论，这意味着我们可以将一般的正态分布转换为卡方分布。下面是一个例子：

\[\begin{align} &X\sim N(0,4): X_1, X_2, X_3, X_4, X_5, X_6,\nonumber\\[1.5ex] &Y = aX_1^2 = b(X_2+X_3)^2 + c(X_4-X_5)^2\sim \chi^2(n)\nonumber\\[1.5ex] &\text{求: }a,\,\,b,\,\,c,\,\,n\nonumber \end{align} \]

分析 \(\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2\) 的期望和方差可得：

\[\begin{align} &E\left [\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2\right ] = E[\chi^2(n)] = n = \frac{1}{\sigma^2}E\left [\sum_{k=1}^n(X_k - \mu)^2\right ],\,\,&\nonumber\\[1.5ex] &D\left [\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2\right ] = D[\chi^2(n)] = 2n=\frac{1}{\sigma^4}D\left [\sum_{k=1}^n(X_k - \mu)^2\right ],\,\,&\nonumber\\[1.5ex] &E\left [\sum_{k=1}^n(X_k - \mu)^2\right ] = n\sigma^2,\,\,D\left [\sum_{k=1}^n(X_k - \mu)^2\right ] = 2n\sigma^4&\nonumber\\[1.5ex] \end{align} \]
注意上述结论的条件要求 \(X_k\) 服从正态分布，可以将此结论和统计量样本方差 \(S^2\) 的期望得到的推论进行比较，

\[E(S^2) = \sigma^2 \Rightarrow E\left [\sum_{k=1}^n(X_k - \overline{X})^2\right ] =E[(n-1)S^2] = (n-1)\sigma^2 \]

2.2. \(t\) 分布

定义：设随机变量 \(X\sim N(0,1),\,\,Y\sim\chi_n^2\) 且 \(X\) 和 \(Y\) 独立，则称

\[T = \frac{X}{\sqrt{Y/n}} \]
为自由度为 \(n\) 的 \(t\) 分布，记作 \(t\sim t(n)\)。

\(t_n\) 的密度函数与标准正态分布 \(N (0, 1)\) 密度很相似，它们都是关于原点对称、单峰偶函数、在 \(x = 0\) 处达到极大。但 \(t_n\) 的峰值低于 \(N (0, 1)\) 的峰值, \(t_n\) 的密度函数尾部都要比 \(N (0, 1)\) 的两侧尾部粗一些并且有 \(\lim_{n\to\infty}t_n(x)=\phi(x)\)，其中 \(\phi(x)\) 为标准正态的概率密度函数。

此处的 \(t_n\) 为自由度为 \(n\) 的 \(t\) 分布
\(t\) 分布的上侧 \(\alpha\) 分位数

若 \(X\sim t(n)\)，记 \(P(X>c) = \alpha\)，则 \(c = t_\alpha(n)\)，\(c\) 称为 \(t(n)\) 的上侧 \(\alpha\) 分位数。对于给定的 \(\alpha\text{ (0<}\alpha\text{<1)}\)，有

\[P(X>t_\alpha(n)) = \int_{t_\alpha(n)}^{+\infty}f(x)dx = \alpha \]
\(t\) 分布的概率密度函数为偶函数，所以 \(t\) 分布的下侧 \(\alpha\) 分位数 \(t_{1-\alpha}(n) = -t_\alpha(n)\)，并且双侧 \(\alpha\) 分位数 \(t_{\alpha/2}(n)\) 满足：

\[P(|X|>t_{\alpha/2}(n)) = \alpha \]
\(t\) 分布的性质：
- 若 \(T\sim t(n)\) 则当 \(n\geqslant 2\) 时，\(E(T) = 0\)，当 \(n\geqslant 3\) 时， \(Var(T) = \frac{n}{n-2}\)；
- 当 \(n\to\infty\) 时，\(t\) 分布的极限分布为 \(N(0,1)\)；

2.3. \(F\) 分布

定义：设随机变量 \(X\sim\chi^2(m),\,\,Y\sim\chi^2(n)\)，且 \(X\) 和 \(Y\) 独立，则称，

\[F = \frac{X/m}{Y/n} \]
为自由度分别是 \(m\) 和 \(n\) 的 \(F\) 分布，记为 \(F\sim F(m,n)\)。

注意 \(m\) 和 \(n\) 是有顺序的，当 \(m\neq n\) 时，若将 \(m\) 和 \(n\) 的顺序颠倒，将得到另一个 \(F\) 分布。由上图可以看出，对于给定的 \(m = 10\)，\(n\) 取不同值时，\(F\) 分布的概率密度函数的形状是偏态的, \(n\) 越小偏态越严重。
\(F\) 分布的上侧 \(\alpha\) 分位数

若 \(X\sim F(m,n)\)，记 \(P(X>c) = \alpha\)，则 \(c = F_\alpha(m,n)\)，\(c\) 称为 \(F(m,n)\) 的上侧 \(\alpha\) 分位数。对于给定的 \(\alpha\text{ (0<}\alpha\text{<1)}\)，有

\[P(X>F_\alpha(m,n)) = \int_{F_\alpha(m,n)}^{+\infty}f(x)dx = \alpha \]
\(F\) 分布的相关性质：
- 若 \(Z\sim F(m,n)\)，则 \(\frac1Z\sim F(m,n)\)；
- 若 \(T\sim t(n)\)，则 \(T^2\sim F(1,n)\)；
- \(F_{1-\alpha}(m,n) = \frac{1}{F_{\alpha}(n,m)}\)；
  
  以上性质中 \(1\) 和 \(2\) 是显然的，\(3\) 的证明不难。尤其性质 \(3\) 在求区间估计和假设检验问题时会常常用到。因为当 \(\alpha\) 为较小的数，如 \(\alpha = 0.05\) 或 \(\alpha = 0.01\)， \(m, \,\,n\) 给定时, 从已有的 \(F\) 分布表上查不到 \(F_{m,n}(1 − 0.05)\) 和 \(F_{m,n}(1 − 0.01)\) 的值，但它们的值可利用性质 \(3\) 求得，因为 \(F_{n,m}(0.05)\) 和 \(F_{n,m}(0.01)\) 是可以通过查 \(F\) 分布表求得的。
  
  若有 \(F_{m,n} \sim F(m,n)\)，要证性质 \(3\)，即证
  
  \[\begin{align} &P(F_{m,n}\geqslant F_{1-\alpha}(m,n)) = 1-\alpha = P(F_{m,n}\geqslant 1/F_{\alpha}(n,m))\nonumber\\[1.5ex] &P(F_{m,n}\geqslant 1/F_{\alpha}(n,m))\nonumber\\[1.5ex] &=P(1/F_{n,m}\geqslant 1/F_{\alpha}(n,m))\nonumber\\[1.5ex] &=P(F_{n,m}\leqslant F_{\alpha}(n,m))\nonumber\\[1.5ex] &=1-\alpha\nonumber \end{align} \]

2.4. 分位数

满足 \(P(X>v_\alpha) = \int_{v_\alpha}^{+\infty}f(x)dx=\alpha\) 的数 \(v_\alpha\)，称为上侧 \(\alpha\) 分位数；

满足 \(P(X>v_\alpha) = \int_{v_\alpha}^{+\infty}f(x)dx=1-\alpha\) 的数 \(v_\alpha\)，称为下侧 \(\alpha\) 分位数；

满足 \(P(|X|>v_{\alpha/2}) =\alpha\) 的数 \(v_{\alpha/2}\)，称为双侧 \(\alpha\) 分位数；

分位数的换算及性质：

换算：上侧 \(\alpha\) 分位数 = 下侧 \((1-\alpha)\) 分位数；
对称性：由 \(N(0,1)\) 与 \(t(n)\) 分布的对称性，有
\[u_{1-\alpha} = u_\alpha,\,\,t_{1-\alpha}(n) = t_\alpha(n) \]
由 \(\chi^2\) 与 \(F\) 分布具有非对称性，但由非负性可得
\[0<\chi^2_{1-\alpha}(n)<\chi_\alpha^2(n),\,\,0<F_{1-\alpha}(m,n)<F_\alpha(m,n) \]
\(F_{1-\alpha}(m,n) = [F_\alpha(m,n)]^{-1}\)

3. 正态总体样本均值和样本方差的分布

3.1. 正态总体线性函数的分布

设随机变量 \(X_1,\ldots,X_n\,\,i.i.d.\sim N(\mu, \sigma^2),\,\,c_1,c_2,\ldots,c_n\) 为常数，则有

\[T = \sum_{k=1}^nc_kX_k\sim N(\mu\sum_{i=1}^n c_k,\sigma^2\sum_{i=1}^nc_k^2) \]

特别地，当 \(c_1=\ldots=c_n = 1/n\)，即 \(T = \frac1n\sum_{i=1}^nX_i = \overline{X}\) 时，有

\[\overline{X}\sim N(\mu, \sigma^2/n) \]

证明思路：期望的线性法则，以及随机变量独立时方差的线性法则

3.2. 单个正态总体

设 \(X\sim N(\mu, \sigma^2),\,\,X_1,\ldots,X_n\) 是来自总体 \(X\) 的简单随机样本，\(\overline{X}=\frac1n\sum_{i=1}^nX_i,\,\,\) \(S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\) 分别为样本均值和样本方差，则有

样本均值的分布：

\[\overline{X}\sim N(\mu, \sigma^2/n),\,\,\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1),\,\,\frac{\overline{X} - \mu}{S/\sqrt{n}}\sim t(n-1) \]

\[\begin{align} &\overline{X}\sim N(\mu, \sigma^2/n)\Rightarrow\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\sim N(0,1),\nonumber\\ &\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\Rightarrow S^2/\sigma^2\sim \chi^2(n-1)/(n-1)\nonumber\\ &\Rightarrow T = \frac{(\overline{X}- \mu)/(\sigma/\sqrt{n})}{\sqrt{S^2/\sigma^2}} = \frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n-1)\nonumber \end{align} \]
样本方差的分布：

\[\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2\sim \chi^2(n),\,\,\frac{(n-1)S^2}{\sigma^2} = \sum_{i=1}^n\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\sim\chi^2(n-1) \]
\(\overline{X}\) 与 \(S^2\) 相互独立（这是正态总体特有的性质）。

待证

3.3. 两个正态总体

设随机变量 \(X_1,\ldots,X_{m}\) 与 \(Y_1,\ldots,Y_{n}\) 分别是来自正态总体 \(N(\mu_1, \sigma_1^2)\) 和 \(N(\mu_2, \sigma_2^2)\) 的样本，且这两个样本相互独立（注：指随机变量 \(X_1,\ldots,X_n\) 与 \(Y_1,\ldots,Y_n\) 相互独立）。设 \(\overline{X},S_X^2\) 和 \(\overline{Y},S_Y^2\) 为相应的样本均值和样本方差，\(S_{XY}^2\) 是总体 \(X\) 和 \(Y\) 的联合样本方差，则有

\[\begin{align} &\overline{X} = \frac{1}{m}\sum_{i=1}^m X_i,\,\,\overline{Y} = \frac{1}{n}\sum_{i=1}^n Y_i\qquad &&S_X^2 = \frac{1}{m-1}\sum_{i=1}^{m}(X_i-\overline{X})^2\nonumber\\[1.5ex] &S_Y^2 = \frac{1}{n-1}\sum_{i=1}^{n}(Y_i-\overline{Y})^2\qquad &&S_{XY}^2 = \frac{(m-1)S_X^2 +(n-1)S_Y^2}{m+n-2}\nonumber\\[1.5ex] \end{align} \]

样本均值差的抽样分布：

\[\overline{X}-\overline{Y}\sim N\left(\mu_1-\mu_2,\frac{\sigma_1^2}{m} + \frac{\sigma_2^2}{n}\right),\,\,\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/m+\sigma_2^2/n}}\sim N(0,1) \]
样本方差比的抽样分布：

\[F = \frac{S_X^2}{S_Y^2}·\frac{\sigma_2^2}{\sigma_1^2}\sim F(m-1,n-1) \]

\[F = \frac{\frac{(m-1)S_X^2}{\sigma_1^2}/(m-1)}{\frac{(n-1)S_Y^2}{\sigma_2^2}/(n-1)} = \frac{S_X^2}{S_Y^2}·\frac{\sigma_2^2}{\sigma_1^2}\sim F(m-1, n-1) \]

当 \(\sigma_1^2 = \sigma_2^2 \triangleq \sigma^2\) 时

\[T = \frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{S_{XY}}·\sqrt{\frac{mn}{m+n}}\sim t(m+n-2) \]
\[W = \frac{(m+n-2)S_{XY}^2}{\sigma^2}\sim \chi^2(m+n-2) \]

\[\begin{align} &\overline{X}\sim N(\mu_1,\sigma^2/m),\,\,\overline{Y}\sim N(\mu_2,\sigma^2/n)\nonumber\\[1.5ex] &\Rightarrow \overline{X}-\overline{Y}\sim N\left(\mu_1-\mu_2, \left(\frac1m+\frac1n\right)\sigma^2\right)\nonumber\\[1.5ex] &\Rightarrow \frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{\sigma}\sqrt{\frac{mn}{m+n}}\sim N(0,1)\nonumber,\\[1.5ex] &(m-1)S_1^2/\sigma^2\sim\chi^2(m-1),\,\,(n-1)S_2^2/\sigma^2\sim\chi^2(n-1)\nonumber\\[1.5ex] &\Rightarrow \frac{(m-1)S_1^2+(n-1)S_2^2}{\sigma^2}\sim\chi^2(m+n-2)\nonumber\\[1.5ex] \end{align} \]
由上述两个结论以及，\((\overline{X},\overline{Y})\) 与 \((S_1^2,S_2^2)\) 相互独立，由 \(t\) 分布的定义可得：

\[\begin{align} T &= \frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{\sigma}\sqrt{\frac{mn}{m+n}}\bigg/\sqrt{\frac{(m-1)S_1^2+(n-1)S_2^2}{\sigma^2(m+n-2)}}\nonumber\\ &=\frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{S_w}·\sqrt{\frac{mn}{m+n}}\sim t(m+n-2)\nonumber \end{align} \]

4. \(X(n)=\text{max}(X_1,X_2,\ldots,X_n)\) 和 \(X(n) = \text{min}(X_1,X_2,\ldots,X_n)\) 的分布

设总体 \(X\) 的分布函数为 \(F(x)\)，\(X_1,X_2,\ldots,X_n\) 是来自总体 \(X\) 的简单随机样本，则统计量 \(X(n)=\text{max}(X_1,X_2,\ldots,X_n)\) 和 \(X(n) = \text{min}(X_1,X_2,\ldots,X_n)\) 的分布函数分别为

\[\begin{align} &F_{\text{max}}(x)=P\left\{\text{max}(X_1,X_2,\ldots,X_n)\leqslant x\right\} = \left[F(x)\right]^n\nonumber\\[1.5ex] &F_{\text{min}}(x)=P\left\{\text{min}(X_1,X_2,\ldots,X_n)\leqslant x\right\} = 1-\left[1-F(x)\right]^n\nonumber\\[1.5ex] \end{align} \]

还不知道怎么来的

补充内容：一些分布的可加性

若 \(X\sim B(m, p),\,\,Y\sim B(n,p)\) 且相互独立，则 \(Z = (X+Y)\sim B(m+n,p)\)；
若 \(X\sim P(\lambda_1),\,\,Y\sim P(\lambda_2)\) 且相互独立，则 \(Z = (X+Y)\sim P(\lambda_1+\lambda_2)\)；
若 \(X\sim N(\mu_1,\sigma_1^2),\,\,Y\sim N(\mu_2,\sigma_2^2)\) 且相互独立，则 \(Z = (X+Y)\sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)\)；
若 \(X\sim\chi^2(m),\,\,Y\sim\chi^2(n)\) 且 \(X,\,\,Y\) 独立，则 \(Z = (X+Y)\sim\chi^2(m+n)\)；

参考资料

http://staff.ustc.edu.cn/~zwp/teach/Prob-Stat/Lec13_slides.pdf
https://www.bilibili.com/video/BV1QN411R7ng/
https://www.math.pku.edu.cn/teachers/lidf/course/probstathsy/probstathsy.pdf
李林考研数学系列概率论与数理统计辅导讲义

posted @ 2024-06-12 11:23 TimeLimitExceeded 阅读(133) 评论(0) 编辑收藏举报

刷新页面返回顶部

tamtam