数理统计笔记

由于学校的概率论与数理统计课有些一言难尽,开始在这里自学书上后面的数理统计部分的知识。


1. 基本概念

数理统计学中,我们通常将研究的对象叫做总体,而组成总体的基本单元称为个体,我们认为一个随机变量为一个总体,总体的 \(n\) 个测量结果 \((x_1, x_2, \cdots, x_n)\) 为一个随机向量 \((X_1, X_2, \cdots, X_n)\) 的观察值。其中随机向量的每个分量都是随机且独立的。

\((X_1, X_2, \cdots, X_n)\) 是一个 \(n\) 维随机向量,且 \(X_i\,(i = 1, 2, \cdots, n)\)\(X\) 同分布且相互独立,则称这个随机向量为 \(X\) 的一个简单随机样本,简称样本,称 \(n\)样本空间

显然由于独立性,若 \(X\) 的密度函数为 \(f(x)\),则 \((X_1, X_2, \cdots, X_n)\) 的联合密度函数为:

\[g(x_1, x_2, \cdots, x_n) = \prod_{i = 1}^n f(x_i) \]

同理,若 \(X\) 的分布函数为 \(F(x)\),则 \((X_1, X_2, \cdots, X_n)\) 的联合分布函数为:

\[G(x_1, x_2, \cdots, x_n) = \prod_{i = 1}^n F(x_i) \]

通常我们希望通过一组数据得出一些信息,所以我们定义统计量,即设 \((X_1, X_2, \cdots, X_n)\) 是总体 \(X\) 的一个样本,函数 \(T(X_1, X_2, \cdots, X_n)\) 是未知量 \(x_1, x_2, \cdots, x_n\) 一个不含未知量的参数的函数,则称 \(T(X_1, X_2, \cdots, X_n)\) 是一个统计量。如果将样本值代入函数,那么就称这个函数值为统计量的观察值。

常用统计量有:

  • 样本均值:

\[\bar{X} = \dfrac{1}{n} \sum_{i = 1}^n X_i \]

  • 样本方差:

\[S^2 = \dfrac{1}{n - 1} \sum_{i = 1}^n (X_i - \bar{X}) \]

同样,也有标准差:\(s = \sqrt{\dfrac{1}{n - 1} \sum_{i = 1}^n \limits (X_i - \bar{X})}\)

  • 样本矩:

样本 \(k\) 阶原点矩为:

\[A_k = \dfrac{1}{n} \sum_{i = 1}^n X_i^k \]

样本 \(k\) 阶中心矩为:

\[B_k = \dfrac{1}{n} \sum_{i = 1}^n (X_i - \bar{X})^k \]

可以看到:

\[A_1 = \bar{X}, B_2 = \dfrac{n - 1}{n} S^2 \]

注意到样本方差的定义与离散随机变量方差的定义之中,两个定义的分母不同,这是因为这样定义可以使得 \(E(S^2) = D(X)\),我们将在估计量的无偏性这个知识点处证明这一点。

而且由于辛钦大数定律,我们可以证明,如果 \(X\)\(k\) 阶原点矩存在,\(E(X^k) = \mu_k\),则样本原点矩依概率收敛于 \(\mu_k\)

\(X\) 是一个随机变量,\(\alpha\) 为满足 \(0 < \alpha < 1\) 的实数,若数 \(x_{1 - \alpha}\) 满足

\[P\{X \le x_{1 - \alpha}\} = 1 - \alpha \]

则称 \(x_{1 - \alpha}\)\(X\) 的上 \(\alpha\) 分位数,简称分位数,或分位点,或临界值。

如果数 \(x_{\alpha}\) 满足

\[P\{X \le x_{\alpha} \} = \alpha \]

则称 \(x_{\alpha}\)\(X\) 的下 \(\alpha\) 分位数。

对于标准正态分布变量 \(X \sim N(0, 1)\),上 \(\alpha\) 分位数记作 \(u_{1 - \alpha}\),显然有:

\[\Phi(u_{1 - \alpha}) = 1 - \alpha \\ u_{\alpha} = -u_{1 - \alpha} \]

2. 抽样分布与抽样分布定理

由于统计量也是样本的一个函数,由于其也是随机变量,也有分布函数。统计量的分布被称为抽样分布

2.1 常见抽样分布

我们下面来介绍三个著名的统计量:

  • \(\chi^2\) 分布

设总体 \(X \sim N(0, 1)\)\((X_1, X_2, \cdots, X_n)\) 是取自 \(X\) 的一个容量为 \(n\) 的样本,则称随机变量

\[\chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2 \]

服从的分布自由度为 \(n\)\(\chi^2\) 分布,记作 \(\chi^2 \sim \chi^2(n)\)。其中分布自由度是上式平方和中独立的随机变量的个数。

我们可以求出 \(\chi^2\) 分布的概率密度函数:

\[f(x) = \begin{cases} \dfrac{1}{2^{\frac{n}{2}} \Gamma(\frac{n}{2})} x^{\frac{n}{2} - 1} e^{-\frac{x}{2}}, & x \ge 0; \\ 0, & x < 0. \end{cases} \]

其中 \(\Gamma(z)\) 即:

\[\Gamma(z) = \int_{0}^{+\infty} t^{z - 1} e^{-t} dt \]

其被视为阶乘函数在复数域内的拓展,对于正整数 \(z\) 来说,我们有 \(\Gamma(z) = (z - 1)!\)

不难发现,当 \(n = 2\) 时,此分布为 \(\lambda = \frac{1}{2}\) 的指数分布。

\(\Gamma(\frac{1}{2}) = \sqrt{\pi}, \Gamma(z + 1) = z \Gamma(z)\) 的结论,我们可以计算出 \(\chi^2\) 分布的期望和方差:

由于对于 \(n\) 随机变量中任意一个 \(X_i\) 我们都有 \(X_i \sim N(0, 1)\),则:

\[E(X_i^2) = D(X_i) + [E(X_i)]^2 = 1 \\ \begin{aligned} D(X_i^2) &= E(X_i^4) - [E(X_i^2)]^2 \\ &= \dfrac{1}{\sqrt{2 \pi}} \int_{-\infty}^{+\infty} x^4 e^{-\frac{x^2}{2}} dx - 1 \\ &= \dfrac{2}{\sqrt{2 \pi}} \int_0^{+\infty} x^4 e^{-\frac{x^2}{2}} dx - 1 \\ &= \dfrac{4}{\sqrt{\pi}} \int_0^{+\infty} t^{\frac{3}{2}} e^{-t} dt - 1 \\ &= \dfrac{4}{\sqrt{\pi}} \Gamma\left(\frac{5}{2}\right) - 1 \\ &= 2 \end{aligned} \]

由于 \(X_i\) 间相互独立,所以有:

\[E(\chi^2) = \sum_{i = 1}^n E(X_i^2) = n\\ D(\chi^2) = \sum_{i = 1}^n D(X_i^2) = 2n \]

有中心极限定理可知,我们有:

\[\lim_{n \rightarrow +\infty} P\{ \dfrac{\chi^2 - n}{\sqrt{2n}} \le x \} = \Phi(x) \]

显然我们可以通过此式得到 \(\chi^2\) 分布函数的估算方法,即:

\[P\{ \chi^2 \le x \} \approx \Phi( \dfrac{x - n}{\sqrt{2n}} ) \]

通常 \(\chi^2\) 分布的 \(\alpha\) 分位数记作 \(\chi^2_{1 - \alpha}(n)\),进而我们有:

\[\chi^2_{1 - \alpha}(n) \approx n + \sqrt{2n} u_{1 - \alpha} \]

由定义可知,\(\chi^2\) 分布对参数有可加性,故若 \(\chi^2_1 \sim \chi^2(n_1), \chi^2_2 \sim \chi^2(n_2)\),则有 \(\chi^2_1 + \chi^2_2 \sim \chi^2(n_1 + n_2)\)

  • t 分布

\(X \sim N(0, 1), Y \sim \chi^2(n)\),且 \(X, Y\) 相互独立,令

\[T = \dfrac{X}{\sqrt{Y / n}} \]

称 T 服从的分布为自由度为 \(n\) 的 t 分布,记作 \(T \sim t(n)\)

我们可以根据 \(Z = X / Y\) 型随机变量概率密度函数的计算方法,我们可以导出 t 分布的概率密度函数为:

\[f(x) = \dfrac{\Gamma(\frac{n + 1}{2})}{\sqrt{n \pi} \Gamma(\frac{n}{2}) } \left( 1 + \dfrac{x^2}{n} \right)^{- \frac{n + 1}{2}}, -\infty < x < +\infty \]

\(n = 1\) 时,\(f(x) = \frac{1}{\pi} \frac{1}{1 + x^2}\),被称为柯西分布。根据 \(p\) 积分和反常积分的敛散性判断理论,我们可以得知其期望不存在。而同理,当 \(n \ge 2\) 时,t 分布的期望存在,且由于 \(xf(x)\) 为奇函数,故 \(E(T) = 0\)。我们可以证明当 \(n\) 趋于无穷时,t 分布的概率密度函数趋近于标准正态分布。

我们通常将 t 分布的 \(\alpha\) 分位数记作 \(t_{1 - \alpha}(n)\),则我们可以得知:

\[t_{1 - \alpha}(n) \approx u_{1 - \alpha} \\ t_{\alpha}(n) \approx -t_{1 - \alpha}(n) \]

  • F 分布

\(X \sim \chi^2(n_1), Y \sim \chi^2(n_2)\)\(X, Y\) 相互独立,令

\[F = \dfrac{X / n_1}{Y / n_2} \]

\(F\) 服从的分布为自由度 \((n_1, n_2)\) 的 F 分布,记作 \(F \sim F(n_1, n_2)\)

我们可以证明,F 分布的概率密度函数为:

\[f(x) = \begin{cases} \dfrac{\Gamma(\frac{n_1 + n_2}{2})}{\Gamma(\frac{n_1}{2}) \Gamma(\frac{n_2}{2})} \left( \dfrac{n_1}{n_2} \right)^{\frac{n_1}{2}} x^{\frac{n_1}{2} - 1} \left( 1 + \frac{n_1}{n_2} \right)^{-\frac{n_1 + n_2}{2}}, & x \ge 0 \\ 0, & x < 0 \end{cases} \]

我们由定义可知,若 \(F \sim F(n_1, n_2)\)

\[\dfrac{1}{F} \sim F(n_2, n_1) \]

若设 F 的概率分布函数为 \(F_{n_1, n_2}(x)\),则我们可以知道:

\[F_{n_1, n_2}(x) = 1 - F_{n_2, n_1} \left( \frac{1}{x} \right) \]

如果用 \(F_{1 - \alpha}(n_1, n_2)\) 表明 F 分布的 \(\alpha\) 分位数,则有:

\[F_{\alpha}(n_1, n_2) = \dfrac{1}{F_{1 - \alpha}(n_2, n_1)} \]

2.2 抽样分布定理

设总体 \(X \sim N(\mu, \sigma^2)\),则对于总体的一个样本 \((X_1, X_2, \cdots, X_n)\),则样本均值 \(\bar{X}\)\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)

证明只需考虑,由于 \(X_i\) 间互相独立,故

\[E(\bar{X}) = \dfrac{1}{n} \sum_{i = 1}^n E(X_i) = \mu \\ D(\bar{X}) = \dfrac{1}{n^2} \sum_{i = 1}^n D(X_i) = \dfrac{\sigma^2}{n} \]

我们同样可以得到推论,\(\frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)\)

若设总体 \(X \sim N(\mu, \sigma^2)\),则样本均值 \(\bar{X}\) 和样本方差 \(S^2\) 相互独立,且

\[\chi^2 = \dfrac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1) \]

这个证明需要用到 \(n\) 维正态分布的性质,由于并没有很了解这方面的知识,所以不做详细证明。

设总体 \(N \sim N(\mu, \sigma^2)\) 则,我们可以通过上方两个结论得出:

\[T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t(n - 1) \]

\((X_1, X_2, \cdots, X_{n_1})\) 是从总体 \(X \sim N(\mu_1, \sigma^2)\) 中抽取的容量为 \(n_1\) 的样本,\(S_1^2\) 是其样本方差;\((Y_1, Y_2, \cdots, Y_n)\) 是从总体 \(Y \sim N(\mu_2, \sigma^2)\) 中抽取的容量为 \(n_2\) 的样本,\(S_2^2\) 是样本方差,且两个样本相互独立,则

\[T = \dfrac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2) \]

其中

\[S_w = \sqrt{\dfrac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}} \]

设从总体 \(X \sim N(\mu_1, \sigma^2)\) 中抽取容量为 \(n_1\) 的样本,其方差为 \(S_1^2\), 从总体 \(Y \sim N(\mu_2, \sigma^2)\) 中抽取容量为 \(n_2\) 的样本,其方差为 \(S_2^2\),且两个样本相互独立,则随机变量

\[F = \dfrac{\sigma_2^2 S_1^2}{\sigma_1^2 S_2^2} \sim F(n_1 - 1, n_2 - 1) \]

3. 参数估计

3.1 参数点估计

3.1.1 矩估计法

如果概率密度函数中有未知参数,且其分布的矩存在,我们可以采用矩估计法。即让样本的矩代替总体矩。通过计算样本矩,得出样本矩和未知参数的关系,进而求解未知参数。

3.1.2 最大似然估计法

当概率密度函数中有未知参数时,我们选取 \(\hat{\theta}\) 作为未知参数的估计值,使得当 \(\theta = \hat{\theta}\) 时,样本取到实验值的概率最大。

设总体 \(X\) 的概率分布已知,分布密度函数为 \(f(x, \theta)\),从 \(X\) 中抽取一个容量为 \(n\) 的样本 \((X_1, X_2, \cdots, X_n)\),由于 \(X_1, X_2, \cdots, X_n\) 均相互独立且与 \(X\) 同分布,记其联合分布密度函数为:

\[L(\theta, x_1, x_2, \cdots, x_n) = \prod_{i = 1}^n f(x_i, \theta) \]

当样本值取定时,\(L(\theta, x_1, x_2, \cdots, x_n)\) 即为 \(\theta\) 的函数记作 \(L(\theta)\),称为似然函数。它反映了样本在 \(\theta\) 变化时取值概率的大小。我们所要寻找的即为 \(L(\theta)\) 最大时 \(\theta\) 的值。

即称满足

\[L(\hat{\theta}) = \max_{\theta} \{ L(\theta) \} \]

的数 \(\hat{\theta}\) 为参数 \(\theta\) 的最大似然估计值,得到的统计量 \(\hat{\theta}(X_1, X_2, \cdots, X_n)\) 称为 \(X\) 的最大似然估计量。

由函数求最值的方法,如果其可导,我们可以通过求导求 \(L(\theta)\) 的最大值。我们称

\[\dfrac{d}{d\theta} L(\theta) = 0 \]

\(\theta\) 的似然方程。注意到 \(L(\theta)\) 常为多个表达式的乘积,故我们可以考虑对其求自然对数后再求最值,即求 \(\ln L(\theta)\) 的最值。

如果总体服从区间 \([0, \theta]\) 的均匀分布,\((X_1, X_2, \cdots, X_n)\) 是取自总体的样本,\((x_1, x_2, \cdots, x_n)\) 是样本值。\(L(\theta)\) 为单调递减的函数,那么 \(\theta\) 会在区间左端点处取得最大值,此时 \(\theta\) 的最大似然估计值为

\[\hat{\theta} = \max \{ x_1, x_2, \cdots, x_n \} \]

而称 \(\theta\) 的最大似然估计值

\[X^*_n = \hat{\theta} = \max \{ X_1, X_2, \cdots, X_n \} \]

为最大顺序统计量。

3.2 估计量优良性评选准则

3.2.1 无偏性

如果参数 \(\theta\) 的估计量 \(\hat{\theta}\) 满足

\[E(\hat{\theta}) = \theta \]

则称 \(\hat{\theta}\)\(\theta\) 的无偏估计量,称 \(\hat{\theta}\) 的这种性质为无偏性。

下面来证明 \(\bar{X}\)\(S^2\) 均为总体的无偏估计量:

\[E(\bar{X}) = \dfrac{1}{n} \sum_{i = 1}^{n} E(X_i) = \mu \\ \begin{aligned} E(S^2) &= E \bigg(\dfrac{1}{n - 1} \sum_{i = 1}^n (X_i - \bar{X})^2 \bigg) \\ &= \dfrac{1}{n - 1} E \bigg( \sum_{i = 1}^n X_i^2 - n \bar{X}^2 \bigg) \\ &= \dfrac{1}{n - 1} \bigg( \sum_{i = 1}^n E(X_i^2) - n E(\bar{X}^2) \bigg) \\ &= \dfrac{1}{n - 1} \bigg( \sum_{i = 1}^n D(X_i) + [E(X_i)]^2 - n(D(\bar{X}) + [E(\bar{X})]^2) \bigg) \\ &= \sigma^2 \end{aligned} \]

3.2.2 有效性

设参数 \(\hat \theta_1 = \hat \theta_1(X_1, X_2, \cdots, X_n)\)\(\hat \theta_2 = \hat \theta_2(X_1, X_2, \cdots, X_n)\) 是未知参数 \(\theta\) 的两个无偏估计量,如果其方差都存在,且

\[D(\hat \theta_1) < D(\hat \theta_2) \]

那么称 \(\hat \theta_1\)\(\hat \theta_2\) 有效,估计量的这种性质称为有效性。

3.2.3 一致性

\(\hat \theta_n = \hat \theta_n(X_1, X_2, \cdots, X_n)\) 的估计量,若 \(\hat \theta_n\) 依概率收敛于 \(\theta\),即对任意的 \(\epsilon > 0\),有

\[\lim_{n \rightarrow + \infty} P\{ \left\vert \hat \theta_n - \theta \right\vert \geq \epsilon \} = 0 \]

则称 \(\hat \theta_n\)\(\theta\) 的一致估计量。估计量的这种性质称为一致性。

posted @ 2023-03-20 22:44  Nickel_Angel  阅读(132)  评论(0编辑  收藏  举报