数理统计笔记
由于学校的概率论与数理统计课有些一言难尽,开始在这里自学书上后面的数理统计部分的知识。
1. 基本概念
数理统计学中,我们通常将研究的对象叫做总体,而组成总体的基本单元称为个体,我们认为一个随机变量为一个总体,总体的 \(n\) 个测量结果 \((x_1, x_2, \cdots, x_n)\) 为一个随机向量 \((X_1, X_2, \cdots, X_n)\) 的观察值。其中随机向量的每个分量都是随机且独立的。
设 \((X_1, X_2, \cdots, X_n)\) 是一个 \(n\) 维随机向量,且 \(X_i\,(i = 1, 2, \cdots, n)\) 与 \(X\) 同分布且相互独立,则称这个随机向量为 \(X\) 的一个简单随机样本,简称样本,称 \(n\) 为样本空间。
显然由于独立性,若 \(X\) 的密度函数为 \(f(x)\),则 \((X_1, X_2, \cdots, X_n)\) 的联合密度函数为:
同理,若 \(X\) 的分布函数为 \(F(x)\),则 \((X_1, X_2, \cdots, X_n)\) 的联合分布函数为:
通常我们希望通过一组数据得出一些信息,所以我们定义统计量,即设 \((X_1, X_2, \cdots, X_n)\) 是总体 \(X\) 的一个样本,函数 \(T(X_1, X_2, \cdots, X_n)\) 是未知量 \(x_1, x_2, \cdots, x_n\) 一个不含未知量的参数的函数,则称 \(T(X_1, X_2, \cdots, X_n)\) 是一个统计量。如果将样本值代入函数,那么就称这个函数值为统计量的观察值。
常用统计量有:
- 样本均值:
- 样本方差:
同样,也有标准差:\(s = \sqrt{\dfrac{1}{n - 1} \sum_{i = 1}^n \limits (X_i - \bar{X})}\)。
- 样本矩:
样本 \(k\) 阶原点矩为:
样本 \(k\) 阶中心矩为:
可以看到:
注意到样本方差的定义与离散随机变量方差的定义之中,两个定义的分母不同,这是因为这样定义可以使得 \(E(S^2) = D(X)\),我们将在估计量的无偏性这个知识点处证明这一点。
而且由于辛钦大数定律,我们可以证明,如果 \(X\) 的 \(k\) 阶原点矩存在,\(E(X^k) = \mu_k\),则样本原点矩依概率收敛于 \(\mu_k\)。
设 \(X\) 是一个随机变量,\(\alpha\) 为满足 \(0 < \alpha < 1\) 的实数,若数 \(x_{1 - \alpha}\) 满足
则称 \(x_{1 - \alpha}\) 为 \(X\) 的上 \(\alpha\) 分位数,简称分位数,或分位点,或临界值。
如果数 \(x_{\alpha}\) 满足
则称 \(x_{\alpha}\) 为 \(X\) 的下 \(\alpha\) 分位数。
对于标准正态分布变量 \(X \sim N(0, 1)\),上 \(\alpha\) 分位数记作 \(u_{1 - \alpha}\),显然有:
2. 抽样分布与抽样分布定理
由于统计量也是样本的一个函数,由于其也是随机变量,也有分布函数。统计量的分布被称为抽样分布。
2.1 常见抽样分布
我们下面来介绍三个著名的统计量:
- \(\chi^2\) 分布
设总体 \(X \sim N(0, 1)\),\((X_1, X_2, \cdots, X_n)\) 是取自 \(X\) 的一个容量为 \(n\) 的样本,则称随机变量
服从的分布自由度为 \(n\) 的 \(\chi^2\) 分布,记作 \(\chi^2 \sim \chi^2(n)\)。其中分布自由度是上式平方和中独立的随机变量的个数。
我们可以求出 \(\chi^2\) 分布的概率密度函数:
其中 \(\Gamma(z)\) 即:
其被视为阶乘函数在复数域内的拓展,对于正整数 \(z\) 来说,我们有 \(\Gamma(z) = (z - 1)!\)
不难发现,当 \(n = 2\) 时,此分布为 \(\lambda = \frac{1}{2}\) 的指数分布。
由 \(\Gamma(\frac{1}{2}) = \sqrt{\pi}, \Gamma(z + 1) = z \Gamma(z)\) 的结论,我们可以计算出 \(\chi^2\) 分布的期望和方差:
由于对于 \(n\) 随机变量中任意一个 \(X_i\) 我们都有 \(X_i \sim N(0, 1)\),则:
由于 \(X_i\) 间相互独立,所以有:
有中心极限定理可知,我们有:
显然我们可以通过此式得到 \(\chi^2\) 分布函数的估算方法,即:
通常 \(\chi^2\) 分布的 \(\alpha\) 分位数记作 \(\chi^2_{1 - \alpha}(n)\),进而我们有:
由定义可知,\(\chi^2\) 分布对参数有可加性,故若 \(\chi^2_1 \sim \chi^2(n_1), \chi^2_2 \sim \chi^2(n_2)\),则有 \(\chi^2_1 + \chi^2_2 \sim \chi^2(n_1 + n_2)\)。
- t 分布
设 \(X \sim N(0, 1), Y \sim \chi^2(n)\),且 \(X, Y\) 相互独立,令
称 T 服从的分布为自由度为 \(n\) 的 t 分布,记作 \(T \sim t(n)\)。
我们可以根据 \(Z = X / Y\) 型随机变量概率密度函数的计算方法,我们可以导出 t 分布的概率密度函数为:
当 \(n = 1\) 时,\(f(x) = \frac{1}{\pi} \frac{1}{1 + x^2}\),被称为柯西分布。根据 \(p\) 积分和反常积分的敛散性判断理论,我们可以得知其期望不存在。而同理,当 \(n \ge 2\) 时,t 分布的期望存在,且由于 \(xf(x)\) 为奇函数,故 \(E(T) = 0\)。我们可以证明当 \(n\) 趋于无穷时,t 分布的概率密度函数趋近于标准正态分布。
我们通常将 t 分布的 \(\alpha\) 分位数记作 \(t_{1 - \alpha}(n)\),则我们可以得知:
- F 分布
设 \(X \sim \chi^2(n_1), Y \sim \chi^2(n_2)\),\(X, Y\) 相互独立,令
称 \(F\) 服从的分布为自由度 \((n_1, n_2)\) 的 F 分布,记作 \(F \sim F(n_1, n_2)\)
我们可以证明,F 分布的概率密度函数为:
我们由定义可知,若 \(F \sim F(n_1, n_2)\):
若设 F 的概率分布函数为 \(F_{n_1, n_2}(x)\),则我们可以知道:
如果用 \(F_{1 - \alpha}(n_1, n_2)\) 表明 F 分布的 \(\alpha\) 分位数,则有:
2.2 抽样分布定理
设总体 \(X \sim N(\mu, \sigma^2)\),则对于总体的一个样本 \((X_1, X_2, \cdots, X_n)\),则样本均值 \(\bar{X}\) 有 \(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)。
证明只需考虑,由于 \(X_i\) 间互相独立,故
我们同样可以得到推论,\(\frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)\)。
若设总体 \(X \sim N(\mu, \sigma^2)\),则样本均值 \(\bar{X}\) 和样本方差 \(S^2\) 相互独立,且
这个证明需要用到 \(n\) 维正态分布的性质,由于并没有很了解这方面的知识,所以不做详细证明。
设总体 \(N \sim N(\mu, \sigma^2)\) 则,我们可以通过上方两个结论得出:
设 \((X_1, X_2, \cdots, X_{n_1})\) 是从总体 \(X \sim N(\mu_1, \sigma^2)\) 中抽取的容量为 \(n_1\) 的样本,\(S_1^2\) 是其样本方差;\((Y_1, Y_2, \cdots, Y_n)\) 是从总体 \(Y \sim N(\mu_2, \sigma^2)\) 中抽取的容量为 \(n_2\) 的样本,\(S_2^2\) 是样本方差,且两个样本相互独立,则
其中
设从总体 \(X \sim N(\mu_1, \sigma^2)\) 中抽取容量为 \(n_1\) 的样本,其方差为 \(S_1^2\), 从总体 \(Y \sim N(\mu_2, \sigma^2)\) 中抽取容量为 \(n_2\) 的样本,其方差为 \(S_2^2\),且两个样本相互独立,则随机变量
3. 参数估计
3.1 参数点估计
3.1.1 矩估计法
如果概率密度函数中有未知参数,且其分布的矩存在,我们可以采用矩估计法。即让样本的矩代替总体矩。通过计算样本矩,得出样本矩和未知参数的关系,进而求解未知参数。
3.1.2 最大似然估计法
当概率密度函数中有未知参数时,我们选取 \(\hat{\theta}\) 作为未知参数的估计值,使得当 \(\theta = \hat{\theta}\) 时,样本取到实验值的概率最大。
设总体 \(X\) 的概率分布已知,分布密度函数为 \(f(x, \theta)\),从 \(X\) 中抽取一个容量为 \(n\) 的样本 \((X_1, X_2, \cdots, X_n)\),由于 \(X_1, X_2, \cdots, X_n\) 均相互独立且与 \(X\) 同分布,记其联合分布密度函数为:
当样本值取定时,\(L(\theta, x_1, x_2, \cdots, x_n)\) 即为 \(\theta\) 的函数记作 \(L(\theta)\),称为似然函数。它反映了样本在 \(\theta\) 变化时取值概率的大小。我们所要寻找的即为 \(L(\theta)\) 最大时 \(\theta\) 的值。
即称满足
的数 \(\hat{\theta}\) 为参数 \(\theta\) 的最大似然估计值,得到的统计量 \(\hat{\theta}(X_1, X_2, \cdots, X_n)\) 称为 \(X\) 的最大似然估计量。
由函数求最值的方法,如果其可导,我们可以通过求导求 \(L(\theta)\) 的最大值。我们称
为 \(\theta\) 的似然方程。注意到 \(L(\theta)\) 常为多个表达式的乘积,故我们可以考虑对其求自然对数后再求最值,即求 \(\ln L(\theta)\) 的最值。
如果总体服从区间 \([0, \theta]\) 的均匀分布,\((X_1, X_2, \cdots, X_n)\) 是取自总体的样本,\((x_1, x_2, \cdots, x_n)\) 是样本值。\(L(\theta)\) 为单调递减的函数,那么 \(\theta\) 会在区间左端点处取得最大值,此时 \(\theta\) 的最大似然估计值为
而称 \(\theta\) 的最大似然估计值
为最大顺序统计量。
3.2 估计量优良性评选准则
3.2.1 无偏性
如果参数 \(\theta\) 的估计量 \(\hat{\theta}\) 满足
则称 \(\hat{\theta}\) 为 \(\theta\) 的无偏估计量,称 \(\hat{\theta}\) 的这种性质为无偏性。
下面来证明 \(\bar{X}\) 和 \(S^2\) 均为总体的无偏估计量:
3.2.2 有效性
设参数 \(\hat \theta_1 = \hat \theta_1(X_1, X_2, \cdots, X_n)\) 和 \(\hat \theta_2 = \hat \theta_2(X_1, X_2, \cdots, X_n)\) 是未知参数 \(\theta\) 的两个无偏估计量,如果其方差都存在,且
那么称 \(\hat \theta_1\) 比 \(\hat \theta_2\) 有效,估计量的这种性质称为有效性。
3.2.3 一致性
设 \(\hat \theta_n = \hat \theta_n(X_1, X_2, \cdots, X_n)\) 的估计量,若 \(\hat \theta_n\) 依概率收敛于 \(\theta\),即对任意的 \(\epsilon > 0\),有
则称 \(\hat \theta_n\) 为 \(\theta\) 的一致估计量。估计量的这种性质称为一致性。