概率统计之统计部分抄ppt
统计基础
统计量
定义:样本不依赖于位置参数的函数
常用统计量:
- 样本均值:\(\bar X = \sum_i X_i / n\)
- 样本方差:\(S^2 = \sum_i (X_i - \bar X)^2 / (n-1)\),这是对 \(X_i\) 方差的无偏估计量。
- \(k\) 阶矩:\(A_k\)
- \(k\) 阶中心矩:\(B_k\)
重要分布
\(\chi^2\) 分布
设 \(n\) 个服从标准正态分布相互独立随机变量的平方和为 \(\chi^2_n\),则称 \(\chi^2_n\) 服从自由度为 \(n\) 的 \(\chi^2\) 分布,记为 \(\chi^2_n \sim \chi^2(n)\)。
自由度为 \(n\) 的 \(\chi^2\) 分布的上 \(\alpha\) 分位数记为 \(\chi^2_a(n)\)。
例题结论:
-
正态分布独立样本条件下,\(\bar X\) 与 \(S^2\) 相独立。证明过程大概如下:
-
\((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\)
-
以上两个结论的证明(可以直接看最后一项):
-
先取 \(Y_1\) 为均值(即 \(\bar X\)),再取 \(Y_2 \dots Y_n\) 以表示出 \(S^2\)。取 \(Y_2\),由于要求与 \(Y_1\) 不相关(我们不妨假设 \(Y_2\) 只与 \(X_1, X_2\) 有关),在保证单位向量的情况下系数唯一。接着取 \(Y_3\),其与 \(Y_1\) 不应当相关(这是与均值独立的要求),与 \(Y_2\) 也不应当相关(保证变量相互独立,以证明下一题),因此可以列出形如 \(A_{31}+A_{32}+A_{33} = 0,A_{31} = A_{32}, A_{31}^2+A_{32}^2+A_{33}^2=1\) 三个方程,这又唯一确定了这三个系数。以此类推得到系数矩阵 \(A\)。
-
为什么这种方式使得 \(Y_2^2 + \dots + Y_n^2\) 恰好表示出 \(S^2\)?不知道。
-
看了下lds课件,其实根本没必要以这种方式构造式的给出系数矩阵 \(A\)。直接取系数矩阵 \(A\) 的第一行为 \(\frac{1}{\sqrt{n}}\) 来表示均值,其他任取但保证单位正交。那么有 \(\sum Y_i^2 = Y^TY = X^TA^TAX = X^TX = \sum X_i^2\)。再由 \(Y_1 = \bar X \sqrt{n}\) 可得 \(\sum \limits_{i=2}^nY_i^2 = \sum X_i^2 - n\bar X^2 = \sum(X_i - \bar X)^2\)。因为正交的构造,也可以立得两个结论。
-
-
\(\chi^2_2\sim Exp(1/2)\)
\(t\) 分布
设 \(X \sim N(0,1), Y \sim \chi^2(n)\) 且 \(X, Y\) 相互独立,\(T = \dfrac{X}{\sqrt{\dfrac{Y}{n}}}\),则称 \(T\) 服从自由度为 \(n\) 的 \(t\) 分布,记作 \(T \sim t(n)\)。
统一量纲:分母应当开根号。
\(t\) 分布在自由度较大时近似为标准正态分布。
例题结论:
- \(\dfrac{\bar X - \mu}{\sqrt{\dfrac{S^2}{n}}} \sim t(n-1)\)
- 已经证明两个变量相互独立,再根据 \((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\) 凑一下就可以了。
- 注意下面 \(S\) 除的是 \(n\),但凑出来的是 \(t(n-1)\)。
- 设 \(T = \dfrac{(\bar X - \bar Y) - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\),其中 \(S_w^2 = \dfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}\)。则 \(T \sim t(n_1 + n_2 - 2)\)。
- 取 \(\bar X - \bar Y\) 为正态分布,标准化。由于 \(\chi^2\) 分布的可加性,将 \(S_1^2, S_2^2\) 分别拿出来凑一个 \(\chi^2\) 分布。
F分布
设 \(X \sim \chi^2(n_1), Y\sim \chi^2(n_2)\) 且 \(X, Y\) 独立。称 \(F = \dfrac{\frac{X}{n_1}}{\frac{Y}{n_2}}\) 服从自由度为 \((n_1, n_2)\) 的 \(F\) 分布,记作 \(F \sim F(n_1, n_2)\)。
\(F(1, n)\) 是 \(t(n)\) 的平方。
例题结论:
- \(F = \dfrac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)
参数估计
点估计
定义:用简单随机样本统计量估计参数,称为点估计量。样本确定取值,用点估计量估计出的值称为点估计值。
矩法(矩估计)
用前 \(k\) 阶矩或中心矩,估计 \(k\) 个参数。
方法:先用参数表示前 \(k\) 阶(中心)矩,再反解出参数,代入样本即可。
极大似然估计
Bayes 公式:\(P(\theta|A) = \dfrac{P(A|\theta)P(\theta)}{P(A)}\),现在样本 \(A\) 已知,如果假设 \(P(\theta)\) 是均匀分布的,\(\text{argmax}\ P(\theta|A) = \text{argmax}\ P(A|\theta)\),因此极大似然。为了方便,取 \(\log\) 是常用的方法。
估计量的标准
无偏性
无偏估计量、渐进无偏估计量
有效性
对于所有的 \(\theta\),方差都不大。且存在一个 \(\theta\) 方差小,则更有效。
均方误差原则
均方误差。
相合性
\(\hat \theta\) 收敛于 \(\theta\)。
置信区间
定义:两个统计量夹住概率至少为 \(\alpha\) 的参数取值区间,称 \(\alpha\) 为置信度。双侧置信区间、单侧置信区间。
枢轴量
样本和待估参数的函数,但其分布只依赖于样本,不依赖于未知参数。
例如在独立同分布的总体中取样,根据中心极限定理,减均值除标准差后近似服从 \(N(0, 1)\) 分布,这与待估参数无关。
因此如果给定待估参数和样本,可以通过减均值除方差之后落入的点的概率来判断是否可信,即可信区间。
正态分布总体下区间估计
单个正态总体估计 X
已知 \(\sigma^2\),估计 \(\mu\)
用 \(\bar X\),\(\dfrac{\bar X - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)\)。
未知 \(\sigma^2\),估计 \(\mu\)
还要用 \(\bar X\),但因为 \(\sigma\) 未知,用样本标准差 \(S\) 代替,这也对应着 \(t\) 分布在自由度大时近似标准正态分布。
\(\dfrac{\bar X - \mu}{S / \sqrt{n}} \sim t(n - 1)\)。
未知 \(\mu\),估计 \(\sigma^2\)
\((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\)
两个正态总体估计 X,Y
已知 \(\sigma_1^2, \sigma_2^2\),估计 \(\mu_1 - \mu_2\)
把 \(\bar X - \bar Y\) 看成一个正态分布就行了。
\(\sigma_1 = \sigma_2\) 但未知,估计 \(\mu_1 - \mu_2\)
\(T = \dfrac{(\bar X - \bar Y) - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)\)
\(\sigma_1 \neq \sigma_2\) 且未知
如果充分大,用中心极限定理把 \(\bar X - \bar Y\) 近似成标准正态分布做。
对于有限小样本,\(\bar X - \bar Y\) 近似服从 \(t(\min\{n_1 - 1, n_2 - 1\})\)。
\(\mu_1, \mu_2\) 未知,估计 \(\sigma_1^2 / \sigma_2^2\)
\(\dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} = \dfrac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)\)
假设检验
原假设:要否定的假设。\(H_0\)
备择假设:与原假设对立的假设。\(H_1\)
拒绝域:如果样本的某个统计量落入拒绝域,我们就拒绝原假设,接受备择假设。
第 \(I\) 类错误:拒绝真实原假设 \(P(拒绝H_0\ |\ H_0真)\)
第 \(II\) 类错误:接受错误原假设 \(P(接受 H_0\ |\ H_0 假)\)
希望同时减少两类错误,但同样样本下往往不可能。
Neyman-Pearson 原则方法
第 \(I\) 类错误拒绝了真实的原假设,这与我们的要求(证否 \(H_0\))不符。
因此首先控制第 \(I\) 类错误发生概率不超过 \(\alpha\),再寻找检验使得第 \(II\) 类错误发生概率尽量小。
此处的 \(\alpha\) 被称为显著水平。
\(p\) 值方法
\(p\) 值:当原假设成立时,统计量比观察到的结果更极端的概率。
对于显著水平 \(\alpha\),若 \(p \leq \alpha\),则拒绝原假设,称检验结果在水平 \(\alpha\) 下是统计显著的。
否则接受原假设,称检验结果在水平 \(\alpha\) 下是统计不显著的。
假设检验实例
单个正态总体
\(Z\) 检验:\(\sigma^2\) 已知,检验均值
\(t\) 检验:\(\sigma^2\) 未知,检验均值
\(\chi^2\) 检验:\(\mu\) 未知,检验 \(\sigma^2\)
两个正态总体
已知 \(\sigma_1, \sigma_2\),检验 \(\mu_1 - \mu_2\)
\(\sigma_1 = \sigma_2\) 但未知,检验 \(\mu_1 - \mu_2\)
\(\sigma_1 \neq \sigma_2\) 且未知,检验 \(\mu_1 - \mu_2\)
\(F\) 检验:\(\mu_1, \mu_2\) 未知,检验 \(\dfrac{\sigma_1^2}{\sigma_2^2}\)
回归分析
一元线性回归
假设模型为:
\(Y_i = \alpha + \beta x_i + \varepsilon_i\)
\(\varepsilon \sim N(0, \sigma^2)\)
其中 \(\alpha, \beta, \sigma^2\) 未知
据此知 \(Y_i \sim N(\alpha + \beta x_i, \sigma^2)\).
由样本给出 \(\alpha, \beta\) 的点估计 \(\hat \alpha, \hat \beta\),称 \(\hat y = \hat \alpha + \hat \beta x\)。
直接定义偏差函数为 \(Q(\alpha, \beta) = \sum (y_i - \hat y_i)^2\)
通过最小化 \(Q(\hat \alpha, \hat \beta)\) 来得到 \(\hat \alpha\) 和 \(\hat \beta\)。
不写了。