数学一|概统|六、数理统计的基本概念

考试要求

  • 理解总体、简单随机样本、统计量、样本均值、样本方差及样本矩的概念,其中样本方差定义为 \(S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\)
  • 了解 \(\chi^2\) 分布、\(t\) 分布和 \(F\) 分布的概念和性质,了解上侧 \(\alpha\) 分位数的概念并会查表计算;
  • 了解正态总体的常用抽样分布;

1. 统计基本概念

所要调查的对象全体叫做总体 \(\text{(population)}\),总体中每个成员叫做个体。总体一般用随机变量作为数学模型。

从总体 \(X\) 中,随机地抽取 \(n\) 个个体 \(X_1,X_2,\ldots,X_n\),若 \(n\) 个个体 \(X_1,X_2,\ldots,X_n\) 相互独立,且 \(X_i(i=1,2,\ldots,n)\) 与总体 \(X_i\) 有相同的概率分布,则称它们是来自 \(X\) 的简单随机样本(容量为 \(n\));

利用样本对总体进行估计的方法称为估计量 \(\text{(estimator)}\),由估计的方法得到的值称为估计值,常用的估计量(统计量)有下面几种:

  • 样本均值:\(\overline{X}=\frac1n\sum_{i=1}^nX_i\)

  • 样本方差:\(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 = \frac{1}{n-1}\left(\sum_{i=1}^nX_i^2-n\overline{X}^2\right)\)

    使用 \(\frac{1}{n-1}\) 修正后的样本方差,不仅满足一致性(相合性)同时也满足无偏性;未修正的样本方差只满足一致性(相合性)

  • 样本标准差:\(S = \sqrt{S^2}\)

    如果总体 \(X\)(不管服从什么分布,只要其均值和方差存在)具有数学期望 \(EX = \mu\) 和方差 \(D(X) = \sigma^2\),则总有

    \[ E(\overline{X}) = E(X) = \mu,\,\,D(\overline{X}) = \frac{D(X)}{n} = \frac{\sigma^2}{n},\,\,E(S^2) = D(X) = \sigma^2 \]

    • 前两个公式可用期望和方差的线性法则得到。方差的线性法则需要每个随机变量独立,期望的线性法则不需要这个条件;
    • \[ \begin{align} ES^2 &= \frac{1}{n-1}\sum_{i=1}^nE(X_i-\overline{X})^2 = \frac{1}{n-1}\sum_{i=1}^n(EX_i^2 -2E(X_i\overline{X}) + E\overline{X}^2)\nonumber\\[1.5ex] &= \frac{1}{n-1}\sum_{i=1}^n\left[\sigma^2+\mu_2 - \frac{2(n\mu^2+\sigma^2)}{n} + \frac{\sigma^2}{n} + \mu^2\right] = \sigma^2\nonumber \end{align} \]

    • 注意 \(E(X_i\overline{X})\) 的求解,两者并不独立,所以需要将样本均值展开,再分别求期望。
  • \(k\) 阶样本原点矩:\(A_k = \frac1n\sum_{i=1}^nX_i^k\,\,(k=1,2,\ldots)\)

  • \(k\) 阶样本中心矩:\(B_k = \frac1n\sum_{i=1}^n(X_i-\overline{X})^k\,\,(k=1,2,\ldots)\)

2. 统计三大分布

在总体分布为正态时,可以求得许多重要的统计量的抽样分布,这些都与下面讨论的三种分布有密切关系。

2.1. 卡方 ( \(\chi^2\) ) 分布

  1. 定义:设 \(X_1,X_2,\cdots,X_n\,\, i.i.d.\,\,\sim N(0,1)\)\(X = \sum_{i = 1}^nX_i^2\),则称 \(X\) 服从自由度为 \(n\)\(\chi^2\) 分布,记为 \(X\sim \chi_n^2\)

    卡方分布中的自由度一般指该随机变量最终包含的变量的个数

    卡方分布的图像

    由图可得,\(\chi_n^2\) 密度函数的支撑集(即使密度函数为正的自变量的集合)为 \((0, +\infty)\)。随着自由度的增大,卡方分布的密度曲线逐渐趋向于对称,\(n\) 越小,曲线越不对称。

  2. \(\chi^2\) 分布的上侧 \(\alpha\) 分位数
    卡方分布上侧 α 分位数

    \(X\sim\chi^2(n)\),记 \(P(X>c) = \alpha\),则 \(c = \chi_\alpha^2(n)\)\(c\) 称为 \(\chi^2(n)\) 的上侧 \(\alpha\) 分位数。对于给定的 \(\alpha\text{ (0<}\alpha\text{<1)}\),有

    \[P(X>\chi_\alpha^2(n)) = \int_{\chi_\alpha^2(n)}^{+\infty}f(x)dx = \alpha \]

  3. 卡方分布的性质:

    \[\begin{align} &X\sim N(0, \sigma^2)\Rightarrow E(X^2) = \sigma^2,\,\,D(X^2)=2\sigma^4&\nonumber\\[1.5ex] &\Rightarrow E[\chi^2(n)] = n,\,\, D[\chi^2(n)] = 2n\nonumber \end{align} \]

    • \(Z_1\sim\chi^2(m),\,\,Z_2\sim\chi^2(n)\)\(Z_1\)\(Z_2\) 独立,则 \(Z_1 + Z_2 \sim \chi^2(m+n)\)

    • \(\frac{1}{\sigma^2}\sum_{i=1}^n(X_k-\mu)^2 \sim\chi^2(n)\)

      \(\frac{1}{\sigma^2}\sum_{i=1}^n(X_k-\overline{X})^2 = \frac{(n-1)S^2}{\sigma^2} \sim\chi^2(n-1)\),这个结论理解就好,下面是上面结论的证明过程:

    \[\begin{align} &X\sim N(\mu, \sigma^2)(\sigma > 0): X_1,X_2,\cdots,X_n&\nonumber\\[1.5ex] &\Rightarrow X_k\sim N(\mu,\sigma^2),\,\, k = 1\sim n,\,\,\text{相互独立}&\nonumber\\[1.5ex] &\Rightarrow \frac{X_k-\mu}{\sigma} \sim N(0,1),\,\, k = 1\sim n,\,\,\text{相互独立}&\nonumber\\[1.5ex] &\Rightarrow \frac{(X_k-\mu)^2}{\sigma^2} \sim \chi^2(1),\,\, k = 1\sim n,\,\,\text{相互独立}&\nonumber\\[1.5ex] &\Rightarrow \sum_{k=1}^n\frac{(X_k-\mu)^2}{\sigma^2} \sim \chi^2(n)\sim\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2&\nonumber\\[1.5ex] \end{align} \]

    上面是一个重要的结论,这意味着我们可以将一般的正态分布转换为卡方分布。下面是一个例子:

    \[\begin{align} &X\sim N(0,4): X_1, X_2, X_3, X_4, X_5, X_6,\nonumber\\[1.5ex] &Y = aX_1^2 = b(X_2+X_3)^2 + c(X_4-X_5)^2\sim \chi^2(n)\nonumber\\[1.5ex] &\text{求: }a,\,\,b,\,\,c,\,\,n\nonumber \end{align} \]

    例子答案

    分析 \(\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2\) 的期望和方差可得:

    \[\begin{align} &E\left [\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2\right ] = E[\chi^2(n)] = n = \frac{1}{\sigma^2}E\left [\sum_{k=1}^n(X_k - \mu)^2\right ],\,\,&\nonumber\\[1.5ex] &D\left [\frac{1}{\sigma^2}\sum_{k=1}^n(X_k - \mu)^2\right ] = D[\chi^2(n)] = 2n=\frac{1}{\sigma^4}D\left [\sum_{k=1}^n(X_k - \mu)^2\right ],\,\,&\nonumber\\[1.5ex] &E\left [\sum_{k=1}^n(X_k - \mu)^2\right ] = n\sigma^2,\,\,D\left [\sum_{k=1}^n(X_k - \mu)^2\right ] = 2n\sigma^4&\nonumber\\[1.5ex] \end{align} \]

    注意上述结论的条件要求 \(X_k\) 服从正态分布,可以将此结论和统计量样本方差 \(S^2\) 的期望得到的推论进行比较,

    \[E(S^2) = \sigma^2 \Rightarrow E\left [\sum_{k=1}^n(X_k - \overline{X})^2\right ] =E[(n-1)S^2] = (n-1)\sigma^2 \]

2.2. \(t\) 分布

  1. 定义:设随机变量 \(X\sim N(0,1),\,\,Y\sim\chi_n^2\)\(X\)\(Y\) 独立,则称

    \[T = \frac{X}{\sqrt{Y/n}} \]

    为自由度为 \(n\)\(t\) 分布,记作 \(t\sim t(n)\)

    t 分布图像

    \(t_n\) 的密度函数与标准正态分布 \(N (0, 1)\) 密度很相似,它们都是关于原点对称、单峰偶函数、在 \(x = 0\) 处达到极大。 但 \(t_n\) 的峰值低于 \(N (0, 1)\) 的峰值, \(t_n\) 的密度函数尾部都要比 \(N (0, 1)\) 的两侧尾部粗一些并且有 \(\lim_{n\to\infty}t_n(x)=\phi(x)\),其中 \(\phi(x)\) 为标准正态的概率密度函数。

    此处的 \(t_n\) 为自由度为 \(n\)\(t\) 分布

  2. \(t\) 分布的上侧 \(\alpha\) 分位数
    t 分布的分位数

    \(X\sim t(n)\),记 \(P(X>c) = \alpha\),则 \(c = t_\alpha(n)\)\(c\) 称为 \(t(n)\) 的上侧 \(\alpha\) 分位数。对于给定的 \(\alpha\text{ (0<}\alpha\text{<1)}\),有

    \[P(X>t_\alpha(n)) = \int_{t_\alpha(n)}^{+\infty}f(x)dx = \alpha \]

    \(t\) 分布的概率密度函数为偶函数,所以 \(t\) 分布的下侧 \(\alpha\) 分位数 \(t_{1-\alpha}(n) = -t_\alpha(n)\),并且双侧 \(\alpha\) 分位数 \(t_{\alpha/2}(n)\) 满足:

    \[P(|X|>t_{\alpha/2}(n)) = \alpha \]

  3. \(t\) 分布的性质:

    • \(T\sim t(n)\) 则当 \(n\geqslant 2\) 时,\(E(T) = 0\),当 \(n\geqslant 3\) 时, \(Var(T) = \frac{n}{n-2}\)
    • \(n\to\infty\) 时,\(t\) 分布的极限分布为 \(N(0,1)\)

2.3. \(F\) 分布

  1. 定义:设随机变量 \(X\sim\chi^2(m),\,\,Y\sim\chi^2(n)\),且 \(X\)\(Y\) 独立,则称,

    \[F = \frac{X/m}{Y/n} \]

    为自由度分别是 \(m\)\(n\)\(F\) 分布,记为 \(F\sim F(m,n)\)

    F 分布图像

    注意 \(m\)\(n\) 是有顺序的,当 \(m\neq n\) 时,若将 \(m\)\(n\) 的顺序颠倒,将得到另一个 \(F\) 分布。由上图可以看出,对于给定的 \(m = 10\)\(n\) 取不同值时,\(F\) 分布的概率密度函数的形状是偏态的, \(n\) 越小偏态越严重。

  2. \(F\) 分布的上侧 \(\alpha\) 分位数
    F 分布上侧 α 分位数

    \(X\sim F(m,n)\),记 \(P(X>c) = \alpha\),则 \(c = F_\alpha(m,n)\)\(c\) 称为 \(F(m,n)\) 的上侧 \(\alpha\) 分位数。对于给定的 \(\alpha\text{ (0<}\alpha\text{<1)}\),有

    \[P(X>F_\alpha(m,n)) = \int_{F_\alpha(m,n)}^{+\infty}f(x)dx = \alpha \]

  3. \(F\) 分布的相关性质:

    • \(Z\sim F(m,n)\),则 \(\frac1Z\sim F(m,n)\)

    • \(T\sim t(n)\),则 \(T^2\sim F(1,n)\)

    • \(F_{1-\alpha}(m,n) = \frac{1}{F_{\alpha}(n,m)}\)

      以上性质中 \(1\)\(2\) 是显然的,\(3\) 的证明不难。尤其性质 \(3\) 在求区间估计和假设检验问题时会常常用到。因为当 \(\alpha\) 为较小的数,如 \(\alpha = 0.05\)\(\alpha = 0.01\)\(m, \,\,n\) 给定时, 从已有的 \(F\) 分布表上查不到 \(F_{m,n}(1 − 0.05)\)\(F_{m,n}(1 − 0.01)\) 的值,但它们的值可利用性质 \(3\) 求得,因为 \(F_{n,m}(0.05)\)\(F_{n,m}(0.01)\) 是可以通过查 \(F\) 分布表求得的。


      若有 \(F_{m,n} \sim F(m,n)\),要证性质 \(3\),即证

      \[\begin{align} &P(F_{m,n}\geqslant F_{1-\alpha}(m,n)) = 1-\alpha = P(F_{m,n}\geqslant 1/F_{\alpha}(n,m))\nonumber\\[1.5ex] &P(F_{m,n}\geqslant 1/F_{\alpha}(n,m))\nonumber\\[1.5ex] &=P(1/F_{n,m}\geqslant 1/F_{\alpha}(n,m))\nonumber\\[1.5ex] &=P(F_{n,m}\leqslant F_{\alpha}(n,m))\nonumber\\[1.5ex] &=1-\alpha\nonumber \end{align} \]

2.4. 分位数

满足 \(P(X>v_\alpha) = \int_{v_\alpha}^{+\infty}f(x)dx=\alpha\) 的数 \(v_\alpha\),称为上侧 \(\alpha\) 分位数;

满足 \(P(X>v_\alpha) = \int_{v_\alpha}^{+\infty}f(x)dx=1-\alpha\) 的数 \(v_\alpha\),称为下侧 \(\alpha\) 分位数;

满足 \(P(|X|>v_{\alpha/2}) =\alpha\) 的数 \(v_{\alpha/2}\),称为双侧 \(\alpha\) 分位数;

分位数的换算及性质:

  • 换算:上侧 \(\alpha\) 分位数 = 下侧 \((1-\alpha)\) 分位数;
  • 对称性:由 \(N(0,1)\)\(t(n)\) 分布的对称性,有

    \[u_{1-\alpha} = u_\alpha,\,\,t_{1-\alpha}(n) = t_\alpha(n) \]

    \(\chi^2\)\(F\) 分布具有非对称性,但由非负性可得

    \[0<\chi^2_{1-\alpha}(n)<\chi_\alpha^2(n),\,\,0<F_{1-\alpha}(m,n)<F_\alpha(m,n) \]

  • \(F_{1-\alpha}(m,n) = [F_\alpha(m,n)]^{-1}\)

3. 正态总体样本均值和样本方差的分布

3.1. 正态总体线性函数的分布

设随机变量 \(X_1,\ldots,X_n\,\,i.i.d.\sim N(\mu, \sigma^2),\,\,c_1,c_2,\ldots,c_n\) 为常数,则有

\[T = \sum_{k=1}^nc_kX_k\sim N(\mu\sum_{i=1}^n c_k,\sigma^2\sum_{i=1}^nc_k^2) \]

特别地,当 \(c_1=\ldots=c_n = 1/n\),即 \(T = \frac1n\sum_{i=1}^nX_i = \overline{X}\) 时,有

\[\overline{X}\sim N(\mu, \sigma^2/n) \]

证明思路:期望的线性法则,以及随机变量独立时方差的线性法则

3.2. 单个正态总体

\(X\sim N(\mu, \sigma^2),\,\,X_1,\ldots,X_n\) 是来自总体 \(X\) 的简单随机样本,\(\overline{X}=\frac1n\sum_{i=1}^nX_i,\,\,\) \(S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\) 分别为样本均值和样本方差,则有

  1. 样本均值的分布:

    \[\overline{X}\sim N(\mu, \sigma^2/n),\,\,\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1),\,\,\frac{\overline{X} - \mu}{S/\sqrt{n}}\sim t(n-1) \]


    \[\begin{align} &\overline{X}\sim N(\mu, \sigma^2/n)\Rightarrow\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\sim N(0,1),\nonumber\\ &\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\Rightarrow S^2/\sigma^2\sim \chi^2(n-1)/(n-1)\nonumber\\ &\Rightarrow T = \frac{(\overline{X}- \mu)/(\sigma/\sqrt{n})}{\sqrt{S^2/\sigma^2}} = \frac{\overline{X} - \mu}{S/\sqrt{n}} \sim t(n-1)\nonumber \end{align} \]

  2. 样本方差的分布:

    \[\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2\sim \chi^2(n),\,\,\frac{(n-1)S^2}{\sigma^2} = \sum_{i=1}^n\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\sim\chi^2(n-1) \]

  3. \(\overline{X}\)\(S^2\) 相互独立(这是正态总体特有的性质)。

待证

3.3. 两个正态总体

设随机变量 \(X_1,\ldots,X_{m}\)\(Y_1,\ldots,Y_{n}\) 分别是来自正态总体 \(N(\mu_1, \sigma_1^2)\)\(N(\mu_2, \sigma_2^2)\) 的样本,且这两个样本相互独立(注:指随机变量 \(X_1,\ldots,X_n\)\(Y_1,\ldots,Y_n\) 相互独立)。设 \(\overline{X},S_X^2\)\(\overline{Y},S_Y^2\) 为相应的样本均值和样本方差,\(S_{XY}^2\) 是总体 \(X\)\(Y\) 的联合样本方差,则有

\[\begin{align} &\overline{X} = \frac{1}{m}\sum_{i=1}^m X_i,\,\,\overline{Y} = \frac{1}{n}\sum_{i=1}^n Y_i\qquad &&S_X^2 = \frac{1}{m-1}\sum_{i=1}^{m}(X_i-\overline{X})^2\nonumber\\[1.5ex] &S_Y^2 = \frac{1}{n-1}\sum_{i=1}^{n}(Y_i-\overline{Y})^2\qquad &&S_{XY}^2 = \frac{(m-1)S_X^2 +(n-1)S_Y^2}{m+n-2}\nonumber\\[1.5ex] \end{align} \]

  1. 样本均值差的抽样分布:

    \[\overline{X}-\overline{Y}\sim N\left(\mu_1-\mu_2,\frac{\sigma_1^2}{m} + \frac{\sigma_2^2}{n}\right),\,\,\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/m+\sigma_2^2/n}}\sim N(0,1) \]

  2. 样本方差比的抽样分布:

    \[F = \frac{S_X^2}{S_Y^2}·\frac{\sigma_2^2}{\sigma_1^2}\sim F(m-1,n-1) \]


    \[F = \frac{\frac{(m-1)S_X^2}{\sigma_1^2}/(m-1)}{\frac{(n-1)S_Y^2}{\sigma_2^2}/(n-1)} = \frac{S_X^2}{S_Y^2}·\frac{\sigma_2^2}{\sigma_1^2}\sim F(m-1, n-1) \]


    \(\sigma_1^2 = \sigma_2^2 \triangleq \sigma^2\)

    \[T = \frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{S_{XY}}·\sqrt{\frac{mn}{m+n}}\sim t(m+n-2) \]

    \[W = \frac{(m+n-2)S_{XY}^2}{\sigma^2}\sim \chi^2(m+n-2) \]


    \[\begin{align} &\overline{X}\sim N(\mu_1,\sigma^2/m),\,\,\overline{Y}\sim N(\mu_2,\sigma^2/n)\nonumber\\[1.5ex] &\Rightarrow \overline{X}-\overline{Y}\sim N\left(\mu_1-\mu_2, \left(\frac1m+\frac1n\right)\sigma^2\right)\nonumber\\[1.5ex] &\Rightarrow \frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{\sigma}\sqrt{\frac{mn}{m+n}}\sim N(0,1)\nonumber,\\[1.5ex] &(m-1)S_1^2/\sigma^2\sim\chi^2(m-1),\,\,(n-1)S_2^2/\sigma^2\sim\chi^2(n-1)\nonumber\\[1.5ex] &\Rightarrow \frac{(m-1)S_1^2+(n-1)S_2^2}{\sigma^2}\sim\chi^2(m+n-2)\nonumber\\[1.5ex] \end{align} \]

    由上述两个结论以及,\((\overline{X},\overline{Y})\)\((S_1^2,S_2^2)\) 相互独立,由 \(t\) 分布的定义可得:

    \[\begin{align} T &= \frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{\sigma}\sqrt{\frac{mn}{m+n}}\bigg/\sqrt{\frac{(m-1)S_1^2+(n-1)S_2^2}{\sigma^2(m+n-2)}}\nonumber\\ &=\frac{\overline{X}- \overline{Y}-(\mu_1-\mu_2)}{S_w}·\sqrt{\frac{mn}{m+n}}\sim t(m+n-2)\nonumber \end{align} \]

4. \(X(n)=\text{max}(X_1,X_2,\ldots,X_n)\)\(X(n) = \text{min}(X_1,X_2,\ldots,X_n)\) 的分布

设总体 \(X\) 的分布函数为 \(F(x)\)\(X_1,X_2,\ldots,X_n\) 是来自总体 \(X\) 的简单随机样本,则统计量 \(X(n)=\text{max}(X_1,X_2,\ldots,X_n)\)\(X(n) = \text{min}(X_1,X_2,\ldots,X_n)\) 的分布函数分别为

\[\begin{align} &F_{\text{max}}(x)=P\left\{\text{max}(X_1,X_2,\ldots,X_n)\leqslant x\right\} = \left[F(x)\right]^n\nonumber\\[1.5ex] &F_{\text{min}}(x)=P\left\{\text{min}(X_1,X_2,\ldots,X_n)\leqslant x\right\} = 1-\left[1-F(x)\right]^n\nonumber\\[1.5ex] \end{align} \]

还不知道怎么来的

补充内容:一些分布的可加性

  • \(X\sim B(m, p),\,\,Y\sim B(n,p)\) 且相互独立,则 \(Z = (X+Y)\sim B(m+n,p)\)
  • \(X\sim P(\lambda_1),\,\,Y\sim P(\lambda_2)\) 且相互独立,则 \(Z = (X+Y)\sim P(\lambda_1+\lambda_2)\)
  • \(X\sim N(\mu_1,\sigma_1^2),\,\,Y\sim N(\mu_2,\sigma_2^2)\) 且相互独立,则 \(Z = (X+Y)\sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)\)
  • \(X\sim\chi^2(m),\,\,Y\sim\chi^2(n)\)\(X,\,\,Y\) 独立,则 \(Z = (X+Y)\sim\chi^2(m+n)\)

参考资料

posted @ 2024-06-12 11:23  TimeLimitExceeded  阅读(133)  评论(0编辑  收藏  举报

📖目录