应用数理统计
author: virgilwjj
0 概率论基础
0.1 概率 \(P(A)\)
0.1.1 事件间的关系
事件独立:\(P(A B)=P(A) P(B)\)
事件互斥:\(P(A B)=0\)
条件概率:\(P(B \mid A) = \frac{P(A B)}{P(A)}\)
0.1.2 概率的计算公式
加法公式:
-
\(P(A \cup B)=P(A)+P(B)-P(A B)\)
-
\(P(A \cup B \cup C)=P(A)+P(B)+P(C)-P(A B)-P(A C)-P(B C)+P(A B C)\)
-
如果事件互斥:\(P(A \cup B)=P(A)+P(B)\)
减法公式:
- \(P(A - B)=P(A)-P(A B)\)
- 如果事件互斥:\(P(A - B)=P(A)\)
乘法公式:
-
\(P(A B)=P(A) P(B \mid A)\)
-
\(P(A B C)=P(A) P(B \mid A) P(C \mid A B)\)
-
如果事件独立:\(P(A B)=P(A) P(B)\)
全概率公式:\(P(A)=\sum_{i=1}^{N} P(B_{i}) P(A \mid B_{i})\)
贝叶斯公式:\(P(B_{j} \mid A)=\frac{P(B_{j}) P(A \mid B_{j})}{\sum_{i=1}^{N} P(B_{i}) P(A \mid B_{i})}\)
0.2 随机变量 \(X\)
0.2.1 随机变量的概率分布 \(P\)
离散型——分布律:\(P\{X=x_{k}\}=P_{k}\)
特别地:
\(P\{N = n\}=P\{N \leqslant n\}-P\{N \leqslant n-1\}=F(n)-F(n-1)\)
\(P\{N=n\}=P\{N \geqslant n\}-P\{N \geqslant n+1\}\)
连续型——概率密度:\(f(x)=\frac{d F(x)}{d x}\)
0.2.2 随机变量的分布函数 \(F(x)\)
离散型:\(F(x)=P\{X \leqslant x_{k}\}=\sum_{x_{k} \le x}^{} P_{k}\)
连续型:\(F(x)=P\{X \leqslant x\}=\int_{-\infty}^{x} f(t) d t\)
0.2.3 随机变量的数学期望 \(E(X)\)
离散型:\(E(X)=\sum_{k=1}^{\infty} x_{k} p_{k}\)
连续型:\(E(X)=\int_{-\infty}^{\infty} x f(x) d x\)
性质:
-
\(E(C)=C\)
-
\(E(CX)=CE(X)\)
-
\(E(X \pm Y)=E(X) \pm E(Y)\)
-
如果 X 与 Y 互不相关:\(E(X Y)=E(X) E(Y)\)
0.2.4 随机变量的方差 \(D(X)\)
定义:\(D(X)=E\left\{[X-E(X)]^{2}\right\}\)
性质:
-
\(D(X)=E(x^{2})-[E(x)]^{2}\)
-
\(D(C) = 0\)
-
\(D(aX+b)=a^{2} D(X)\)
-
\(D(X \pm Y)=D(X)+D(Y) \pm 2 Cov(X, Y)\)
-
如果 X 与 Y 互不相关:\(D(X \pm Y)=D(X)+D(Y)\)
0.2.5 随机变量的矩 \(a_k,b_k\)
\(k\) 阶原点矩:\(a_{k}=E(X^{k})\)
\(k\) 阶中心矩:\(b_{k}=E\left\{[X-E(X)]^{k}\right\}\)
\(k+l\) 阶混合矩:\(E(X^{k}Y^{l})\)
\(k+l\) 阶中心矩:\(E\left\{[X-E(X)]^{k}[X-E(X)]^{l}\right\}\)
性质:
- \(a_1=E(X)\)
- \(a_2=E(X^2)\)
- \(b_2=D(X)\)
0.2.5 随机变量的协方差 \(Cov(X,Y)\)
定义:\(Cov(X, Y)=E\left\{[X-E(X)] [Y-E(Y)]\right\}\)
性质:
-
\(Cov(X, Y)=E(X Y)-E(X) E(Y)\)
-
\(Cov(X, Y)=Cov(Y, X)\)
-
\(Cov(a X, b Y)=a b Cov(X, Y)\)
-
\(Cov(X_{1} \pm X_{2},Y)=Cov(X_{1},Y) \pm Cov(X_{2},Y)\)
相关系数: \(\rho_{x y}=\frac{Cov(X, Y)}{\sqrt{D(X) D(Y)}}\)
独立条件:\(X\),\(Y\) 都服从正态分布,且协方差为 \(0\),可以推 \(X\),\(Y\) 独立
0.3 随机向量 \(\eta\)
随机向量:\(\eta=\begin{bmatrix} X_1 & X_2 & … & X_n \end{bmatrix}^T\)
随机向量的期望向量:\(\theta=\begin{bmatrix} \mu_1 & \mu_2 & … & \mu_n \end{bmatrix}^T\)
随机向量的协方差矩阵:
\(\Sigma=\begin{bmatrix} Cov(X_1, X_1) & Cov(X_1, X_2) & … & Cov(X_1, X_n) \\ Cov(X_2, X_1) & Cov(X_2, X_2) & … & Cov(X_2, X_n) \\ … & … & … & … \\ Cov(X_n, X_1) & Cov(X_n, X_2) & … & Cov(X_n, X_n) \end{bmatrix}\)
\(\eta \sim N(\theta, \Sigma)\)
性质:\(A\eta \sim N(A\theta, A\Sigma A^T)\)
0.4 \(Chebyshev\) 不等式
-
\(P\{|X-\mu| \geqslant \varepsilon\} \leqslant \frac{\sigma^{2}}{\varepsilon^{2}}\)
-
\(P\{|X-\mu| < \varepsilon\} \geqslant 1-\frac{\sigma^{2}}{\varepsilon^{2}}\)
0.5 中心极限定理
\(\frac{\sum_{k=1}^{n} X_{i} - nE(X)}{\sqrt{nD(X)}} \sim N(0,1)\)
author: virgilwjj
1 抽样分布
1.1 统计量 \(T\)
1.1.1 样本均值 \(\bar X\)
定义:\(\bar{X}=\frac{1}{n} \sum_{i=1}^{n_{1}} X_{i}\)
性质:
- \(E(\bar X)=E(X)\)
- \(D(\bar X)= \frac{D(X)}{n}\)
1.1.2 样本方差 \(S^2\)
定义:\(S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\)
性质:
- \(E(S^2)=D(X)\)
- \(D(S^2)= \frac{2 D(X)^2}{n-1}\)
1.1.3 样本矩 \(A_{k},B_{k}\)
\(k\) 阶样本原点矩:\(A_k=\frac{1}{n} \sum_{i=1}^{n_{1}} X_{i}^k\)
\(k\) 阶样本中心矩:\(B_k=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{k}\)
性质:
- \(A_1 = \bar X\)
- \(A_2=\frac{1}{n} \sum_{i=1}^{n}X_{i}^{2}\)
- \(B_2 = \frac{n-1}{n}S^2\)
1.1.4. 顺序统计量 \(X_{[i]}\)
极小统计量: \(X_{[1]}=min(X_i)\)
极大统计量: \(X_{[n]}=max(X_i)\)
经验分布:\(F_n(X)=\frac{k}{n},\quad X_{[k]} \leqslant X < X_{[k+1]}\)
性质:
1. \(P\{X_{[1]} \leqslant x\}=1-P\{X_{[1]}>x\}=1-[P\{X > x\}]^{n}=1-[1-P\{X \leqslant x\}]^{n}\)
2. \(P\{X_{[n]} \leqslant x\}=[P\{X \leqslant x\}]^{n}\)
3. \(P\{X_{[1]}=x\}=n[1-P\{X \leqslant x\}]^{n-1}P\{X=x\}\)
4. \(P\{X_{[n]}=x\}=n[P\{X \leqslant x\}]^{n-1}P\{X=x\}\)
1.2 常用的分布
1.2.1 常用的离散型分布
分布 | 记作 | \(P\{X=k\}\) | \(E(X)\) | \(D(X)\) |
---|---|---|---|---|
\(0-1\) 分布 | \(X \sim B\left(1, p\right)\) | \(P\{X=k\}=p^{k}(1-p)^{1-k}\) | \(E(X)=p\) | \(D(X)=p(1-p)\) |
二项分布 | \(X \sim B\left(n, p\right)\) | \(P\{X=k\}=C_{n}^{k} p^{k}(1-p)^{n-k}\) | \(E(X)=np\) | \(D(X)=np(1-p)\) |
几何分布 | \(X \sim G(p)\) | \(P\{X=k\}=p(1-p)^{k-1}\) | \(E(X)=\frac{1}{p}\) | \(D(X)=\frac{1-p}{p^{2}}\) |
超几何分布 | \(X \sim H(n,M,N)\) | \(P\{X=k\}=\frac{C_{M}^{k} C_{N-M}^{n-k}}{C_{N}^{n}}\) | \(E(X)=\frac{nM}{N}\) | \(D(x)=\frac{nM}{N}(1-\frac{M}{N})\frac{N-n}{N-1}\) |
\(Poisson\)分布 | \(X \sim P\left(\lambda \right)\) | \(P\{X=k\}=\frac{\lambda^{k}}{k !} e^{-\lambda}\) | \(E(X)=\lambda\) | \(D(X)=\lambda\) |
1.2.2 常用的连续型分布
连续型分布 | 记作 | \(f(x)\) | \(E(X)\) | \(D(X)\) |
---|---|---|---|---|
均匀分布 | \(X \sim U\left(a, b\right)\) | \(f(x)=\frac{1}{b-a} ,\quad a \leqslant x \leqslant b\) | \(E(X)=\frac{a+b}{2}\) | \(D(X)=\frac{(b-a)^2}{12}\) |
指数分布 | \(X \sim E\left(\lambda \right)\) | \(f(x)=\lambda e^{-\lambda x},\quad a \leqslant x \leqslant b\) | \(E(X)=\frac{1}{\lambda}\) | \(D(X)=\frac{1}{\lambda^{2}}\) |
正态分布 | \(X \sim N\left(\mu, \sigma^{2}\right)\) | \(f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}\) | \(E(X)=\mu\) | \(D(X)=\sigma^{2}\) |
\(\Gamma\) 分布 | \(X \sim \Gamma\left(\alpha, \lambda \right)\) | \(f(x)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x},\quad x>0\) | \(E(X)=\frac{\alpha}{\lambda}\) | \(D(X)=\frac{\alpha}{\lambda^{2}}\) |
\(I\Gamma\) 分布 | \(X \sim I\Gamma\left(\alpha, \lambda\right)\) | \(f(x)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{-\alpha-1} e^{-\frac{\lambda}{x}},\quad x>0\) | \(E(X)=\frac{\lambda}{\alpha-1}\) | \(D(X)=\frac{\lambda^2}{(\alpha-1)^2(\alpha-2)}\) |
\(\Beta\) 分布 | \(X \sim \Beta\left(\alpha,\beta\right)\) | \(f(x)=\frac{1}{\Beta(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1},\quad x>0\) | \(E(X)=\frac{\alpha}{\alpha+\beta}\) | \(D(X)=\frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}\) |
1.2.3 常用的统计分布
分布 | 记作 | \(f(x)\) | \(E(X)\) | \(D(X)\) |
---|---|---|---|---|
\(\chi^{2}\) 分布 | \(X \sim \chi^{2}\left(n\right)\) | \(k_n(x)=\frac{1}{2^{n/2}\Gamma(n/2)} x^{n/2-1} e^{-x/2}\) | \(E(X)=n\) | \(D(X)=2 n\) |
\(t\) 分布 | \(X \sim t\left(n\right)\) | \(t_{n}(x)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n \pi} \Gamma\left(\frac{n}{2}\right)}\left(1+\frac{x^{2}}{n}\right)^{-\frac{n+1}{2}}\) | \(E(X)=0\) | \(D(X)=\frac{n}{n-2}\) |
\(F\) 分布 | \(X \sim F\left(m, n\right)\) | \(f_{m, n}(x)=\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)} m^{\frac{m}{2}} n^{\frac{n}{2}} \frac{x^{\frac{m}{2}-1}}{(n+m x)^{\frac{m+n}{2}}}\) | \(E(X)=\frac{n}{n - 2}\) | \(D(X)=\frac{2 n^2 (m + n - 2)}{m (n - 2)^2 (n - 4)}\) |
1.2.4 具有可加性的分布
前提:\(X\) 与 \(Y\) 独立
分布 | 分布 \(X\) | 分布 \(Y\) | 分布 \(X+Y\) |
---|---|---|---|
二项分布 | \(X \sim B\left(n_{1}, p\right)\) | \(Y \sim B\left(n_{2}, p\right)\) | \(X+Y \sim B\left(n_{1}+n_{2}, p\right)\) |
\(Poisson\)分布 | \(X \sim P\left(\lambda_{1} \right)\) | \(Y \sim P\left(\lambda_{2} \right)\) | \(X+Y \sim P\left(\lambda_{1}+\lambda_{2} \right)\) |
正态分布 | \(X \sim N\left(\mu_{1}, \sigma_{1}^{2}\right)\) | \(Y \sim N\left(\mu_{2}, \sigma_{2}^{2}\right)\) | \(X + Y \sim N\left(\mu_{1} + \mu_{2}, \sigma_{1}^{2}+\sigma_{2}^{2}\right)\) |
\(\Gamma\) 分布 | \(X \sim \Gamma\left(\alpha_{1}, \lambda\right)\) | \(Y \sim \Gamma\left(\alpha_{2}, \lambda\right)\) | \(X+Y \sim \Gamma\left(\alpha_{1}+\alpha_{2}, \lambda\right)\) |
\(\chi^{2}\) 分布 | \(X \sim \chi^{2}\left(n_{1}\right)\) | \(Y \sim \chi^{2}\left(n_{2}\right)\) | \(X + Y \sim \chi^{2}\left(n_{1} + n_{2}\right)\) |
1.2.5 具有无记忆性的分布
\(P(X>s+t|X>t)=P(X>s)\)
分布 | 事件 |
---|---|
几何分布 | “扔了9次硬币正面,第10次反面概率还是 1/2” |
指数分布 | “等了9小时没出现客人,接下来的1小时出现第一位客人的概率还是不变” |
1.2.6 \(0-1\) 分布 \(X \sim B\left(1, p\right)\)
事件:掷 \(1\) 次硬币,出现正面的概率
1.2.7 二项分布 \(X \sim B\left(n, p\right)\)
事件:掷 \(n\) 次硬币,出现 \(k\) 次正面的概率
1.2.8 几何分布
事件:掷到第 \(k\) 次硬币,才出现正面的概率
1.2.9 超几何分布
事件:在 \(N\) 件产品中有 \(M\) 件次品,从中一次性抽取 \(n\) 件产品,有 \(k\) 件次品的概率
1.2.10 \(Poisson\)分布 \(X \sim P\left(\lambda \right)\)
事件:一段时间内,发生 \(k\) 次的概率
\(Poisson\)定理:\(n\) 很大,\(p\) 很小时:\(B\left(n, p\right) \approx P\left(np \right)\)
1.2.11 均匀分布 \(X \sim U\left(a, b\right)\)
分布函数:\(F(x)=\left\{\begin{array}{ll}0 & , & x<a \\ \frac{x-a}{b-a} & , & a \leqslant x<b \\ 1 & , & b \leqslant x\end{array}\right.\)
1.2.12 指数分布 \(X \sim E\left(\lambda \right)\)
事件:发生一次事件,所需要的时间。
和 \(Poisson\)分布 一同理解:假如 \(\lambda=2\),一小时平均发生两次,发生一次平均需要半小时。
分布函数:\(F(x)=\left\{\begin{array}{cl}1-e^{-\lambda x} & , x>0 \\ 0 & , x \leqslant 0\end{array}\right.\)
建立服从 \(\chi^{2}\) 分布检验量:\(2 \lambda n \bar X \sim \chi^{2}(2 n)\)
1.2.13 正态分布 \(X \sim N\left(\mu, \sigma^{2}\right)\)
分布函数:\(F(x)=\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{x} e^{-\frac{(t-\mu)^{2}}{2 \sigma^{2}} d t}\)
1.2.14 二维正态分布 \((X,Y) \sim N\left(\mu_1,\mu_2,\sigma_1^{2},\sigma_2^{2},\rho\right)\)
概率密度函数:\(f(x, y)=\left(2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}\right)^{-1} \exp \left[-\frac{1}{2\left(1-\rho^{2}\right)}\left(\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}-\frac{2 \rho\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right)\right]\)
1.2.15 \(\Gamma\) 分布 \(X \sim \Gamma\left(\alpha, \lambda \right)\)
\(\Gamma\) 分布性质:
- \(c X \sim \Gamma\left(\alpha, \frac{\lambda}{c}\right)\)
- \(E\left(\lambda \right) = \Gamma\left(1, \lambda \right)\)
- \(\chi^{2}(n)=\Gamma\left(\frac{n}{2}, \frac{1}{2}\right)\)
\(\Gamma\) 函数:\(\Gamma(\alpha)=\int_{0}^{+\infty} x^{\alpha-1} e^{-x} d x , \alpha>0\)
\(\Gamma\) 函数性质:
- \(\Gamma(1)=1\)
- \(\Gamma(\frac{1}{2})=\sqrt{\pi}\)
- \(\Gamma(\alpha+1)=\alpha\Gamma(\alpha)\)
- \(\Gamma(n+1)=n\Gamma(n)=n!\)
1.2.16 \(I\Gamma\) 分布 \(X \sim I\Gamma\left(\alpha, \lambda\right)\)
\(X \sim \Gamma(\alpha, \lambda)\),则 \(\frac{1}{X} \sim I\Gamma(\alpha, \lambda)\)
1.2.17 \(\Beta\) 分布 \(X \sim \Beta\left(\alpha,\beta\right)\)
\(\Beta\) 函数:\(\Beta(\alpha,\beta)=\int_{0}^{1} x^{\alpha-1} (1-x)^{\beta-1} d x \quad(\alpha>0)\)
\(\Beta\) 函数性质:
- \(B(\alpha,\beta)=\frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha+\beta)}\)
1.2.18 \(\chi^{2}\) 分布 \(X \sim \chi^{2}\left(n\right)\)
1.2.19 \(t\) 分布 \(X \sim t\left(n\right)\)
\(t\) 分布性质:
- \(t_{1-\alpha}(n) = -t_{\alpha}(n)\)
- \(t(n)^{2}=X(n)\)
1.2.20 \(F\) 分布 \(X \sim F\left(m, n\right)\)
\(F\) 分布性质:
- \(F_{1-\alpha}(m,n) = 1 / F_{\alpha}(n,m)\)
1.3 常用的抽样分布
1.3.1 一个正态总体的抽样分布
- \(\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \sim N(0,1)\)
- \(\frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)\)
- \(\frac{\sqrt{n}(\bar{X}-\mu)}{S} \sim t(n-1)\)
- \(\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\sigma^{2}} \sim \chi^{2}(n)\)
1.3.2 两个正态总体的抽样分布
-
\(\frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac {\sigma_2^2}{n_2}}} \sim N(0,1)\)
-
如果 \(\sigma_{1}^{2}=\sigma_{2}^{2}\) :
\(S_{W}^{2}=\frac{\left(n_{1}-1\right) S_{1}^{2}+\left(n_{2}-1\right) S_{2}^{2}}{n_{1}+n_{2}-2}\)
\(\frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{S_{W} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t(n_1+n_2-2)\)
-
\(\frac{S_{1}^{2} / \sigma_{1}^{2}}{S_{2}^{2} / \sigma_{2}^{2}} \sim F\left(n_{1}-1, n_{2}-1\right)\)
-
\(\frac{\sum_{i=1}^{n_1}\left(X_{i}-\mu_1\right)^{2} / n_1\sigma_1^{2}}{\sum_{i=1}^{n_2}\left(Y_{i}-\mu_2\right)^{2} / n_2\sigma_2^{2}} \sim F\left(n_{1}, n_{2}\right)\)
1.3.3 一个指数总体的抽样分布
- \(2 \lambda n \bar X \sim \chi^{2}(2 n)\)
1.3.4 一个二项总体的抽样分布
- \(\frac{X-n p}{\sqrt{n p(1-p)}} \sim N(0,1)\)
- \(\frac{p_s-p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0,1)\)
1.3.5 一个非正态总体均值的抽样分布
-
\(\frac{\bar X - E(X)}{\sqrt{D(X)/n}} \sim N(0,1)\)
-
\(\frac{\bar X - E(X)}{\sqrt{S^2/n}} \sim N(0,1)\)
1.3.6 两个总体的组合的抽样分布
- \(\chi^{2}(n_1)+\chi^{2}(n_2)=\chi^{2}(n_1+n_2)\)
- \(\frac{\chi^{2}(n_1)/n_1}{\chi^{2}(n_2)/n_2}=F(n_1,n_2)\)
- \(\frac{N(0,1)}{\sqrt{\chi^{2}(n)/n}}=t(n)\)
author: virgilwjj
2 参数估计
2.1 点估计
2.1.1 矩估计
- \(A_k\) 估计 \(a_k\),\(A_k=a_k\)
- \(B_k\) 估计 \(b_k\),\(B_k=b_k\)
2.1.2 极大似然估计
- 似然函数取对数,再求导
- 前后项比较,求出极值点
- 边界条件与极小极大统计量的关系
2.1.3 评价估计量好坏的标准
无偏性:\(E(\hat\theta)=\theta\)
有效性:
1. 如果 \(E(\hat\theta_1)=E(\hat\theta_2)=\theta\) 时,\(D(\hat\theta_1)<D(\hat\theta_2)\),\(\hat\theta_1\) 比 \(\hat \theta_2\) 更有效
2. 均方误差 \(M(\hat \theta) = E((\hat \theta - \theta)^2)\),\(M(\hat \theta_1)<M(\hat \theta_2)\),\(\hat\theta_1\) 比 \(\hat \theta_2\) 更有效
一致性:\(\hat\theta\) 依概率收敛于 \(\theta\)
2.2 区间估计
2.2.1 一个总体的置信区间
\(P\{k_1 < \theta < k_2\}=1-\alpha\)
2.2.2 两个总体的置信区间
- \(P\{k_1 < \theta_1 - \theta_2 < k_2\}=1-\alpha\)
- \(P\{k_1 < \theta_1 / \theta_2 < k_2\}=1-\alpha\)
2.3 \(Bayes\) 估计
2.3.1 核
- \(e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}\):\(X \sim N\left(\mu, \sigma^{2}\right)\)
- \(x^{\alpha-1} e^{-\lambda x}\):\(X \sim \Gamma\left(\alpha, \lambda \right)\)
- \(x^{-\alpha-1} e^{-\frac{\lambda}{x}}\):\(X \sim I\Gamma\left(\alpha, \lambda\right)\)
- \(x^{\alpha-1}(1-x)^{\beta-1}\):\(X \sim \Beta\left(\alpha,\beta\right)\)
2.3.2 损失函数
- \((\theta-d)^{2}\):\(\hat{\theta}=E(\theta)\)
- \(\lambda(\theta) (\theta-d)^{2}\):\(\hat{\theta}=\frac{E[\theta \lambda(\theta)]}{E[\lambda(\theta)]}\)
author: virgilwjj
3 假设检验
3.1 拒绝域
\(H_0\) | \(H_1\) | 拒绝域 |
---|---|---|
\(a = a_0\) | \(a \ne a_0\) | \(\hat a \ne a_0\) |
\(a = a_0\) | \(a > a_0\) | \(\hat a > a_0\) |
\(a = a_0\) | \(a = a_1(a_0<a_1)\) | \(\hat a > a_0\) |
\(a \leqslant a_0\) | \(a > a_0\) | \(\hat a > a_0\) |
\(a = a_0\) | \(a < a_0\) | \(\hat a < a_0\) |
\(a = a_0\) | \(a = a_1(a_0>a_1)\) | \(\hat a < a_0\) |
\(a \geqslant a_0\) | \(a < a_0\) | \(\hat a < a_0\) |
3.2 两类错误
3.1.1 第一类错误 弃真
\(P\{拒绝了H_0 \mid H_0 为真\}=\alpha\)
3.1.2 第二类错误 采假
\(P\{接受了 H_0 \mid H_0 为假\}=\beta\)
3.2 参数检验
3.3 非参数检验
3.3.1 \(\chi^{2}\) 检验
\(H_0\):\(P(X)=P_0(X)\)
\(H_1\):\(P(X) \ne P_0(X)\)
检验统计量:\(K^{2}=\sum_{i=1}^{k} \frac{n}{\hat p_{i}}\left(\frac{v_{i}}{n}-\hat p_{i}\right)^{2}=\sum_{i=1}^{k} \frac{\left(v_{i}-n \hat p_{i}\right)^{2}}{n \hat p_{i}}=\frac{1}{n} \sum_{i=1}^{k} \frac{v_{i}^{2}}{\hat p_{i}}-n\)
拒绝域:\(K^{2} > \chi_\alpha^{2}(k-r-1)\)
\(r\):未知的参数的个数,即需要做点估计的参数的个数;不需要做点估计的参数或题目告诉你的,算已知。
3.3.2 \(\chi^{2}\) 分析
\(H_0\):\(P(A B)=P(A)P(B)\)
\(H_1\):\(P(A B) \ne P(A)P(B)\)
检验统计量:\(K^{2}=\sum_{i=1}^{s} \sum_{j=1}^{t} \frac{\left(n_{i j}-n \hat{p}_{i} \hat{q}_{j}\right)^{2}}{n \hat{p}_{i} \hat{q}_{j}}\)
拒绝域:\(K^{2}>\chi_{\alpha}^{2}((s-1)(t-1))\)
当 \(2 * 2\) 时:
检验统计量:\(K^{2}=\frac{n\left(n_{11} n_{22}-n_{12} n_{21}\right)^{2}}{n_{1 .} n_{2 .} n_{. 1} n_{. 2}}\)
拒绝域:\(K^{2}>\chi_{\alpha}^{2}(1)\)
3.3.3 秩和检验
检验统计量:第二个样本的秩和 \(W\)
拒绝域:
- \(F(x)\),\(G(x)\) 是两个总体分布函数
\(H_0\) | \(H_1\) | 拒绝域 |
---|---|---|
\(F(x) \leqslant G(x)\) | \(F(x)>G(x)\) | \(W \geqslant d\) |
\(F(x) \geqslant G(x)\) | \(F(x) < G(x)\) | \(W \leqslant c\) |
\(F(x) = G(x)\) | \(F(x) \ne G(x)\) | \(W \leqslant c \cup W \geqslant d\) |
- \(\mu_1\),\(\mu_2\) 是两个总体的均值
\(H_0\) | \(H_1\) | 拒绝域 |
---|---|---|
\(\mu_1 \geqslant \mu_2\) | \(\mu_1 < \mu_2\) | \(W \geqslant d\) |
\(\mu_1 \leqslant \mu_2\) | \(\mu_1 > \mu_2\) | \(W \leqslant c\) |
\(\mu_1 = \mu_2\) | \(\mu_1 \ne \mu_2\) | \(W \leqslant c \cup W \geqslant d\) |
建立服从正态分布检验量:\(R_1 \sim N(\frac{n_1(n1+n2+1)}{2},\frac{n_1 n_2 (n1+n2+1)}{12})\)
\(R_1\) 为第一个样本的秩和
3.3.4 符号检验
单样本:与中位数的差的绝对值的秩和检验
双样本:对应的差的绝对值的秩和检验
author: virgilwjj
4 方差分析
4.1 方差分析的常用统计量
误差方差估计:\(\hat{\sigma}^{2}=\frac{R S S}{n-r}\)
总平方和:\(TSS=\sum_{i=1}^{r} \sum_{j=1}^{n_{i}}\left(y_{i j}-\bar{y}\right)^{2}=(n-1)S^2\)
自变量平方和:\(CSS=\sum_{i=1}^{r} \sum_{j=1}^{n_{i}}\left(\bar{y}_{i}-\bar{y}\right)^{2}\)
残差平方和:\(RSS=\sum_{i=1}^{r} \sum_{j=1}^{n_{i}}\left(y_{i j}-\bar{y_i}\right)^{2}=\sum_{i=1}^{r}(n_i-1)S_i^2\)
性质:
- \(TSS=CSS+RSS\)
- \(\frac{R S S}{\sigma^{2}}=\frac{(n-r) \hat{\sigma}^{2}}{\sigma^{2}} \sim \chi^{2}(n-r)\)
- \(\frac{CSS}{\sigma^{2}} \sim \chi^{2}(r-1)\)
4.2 方差分析
\(H_0\):\(\mu_1=\mu_2= … =\mu_r\)
\(H_1\):\(\mu_1,\mu_2, … ,\mu_r\) 不完全相等
检验统计量:\(F=\frac{CSS/(r-1)}{RSS/(n-r)}\)
拒绝域:\(F>F(r-1,n-r)\)
方差来源 | 平方和 | 自由度 | 均方 | F |
---|---|---|---|---|
分类变量 | \(CSS\) | \(r-1\) | \(CSS/(r-1)\) | \(\frac{CSS/(r-1)}{RSS/(n-r)}\) |
残差变量 | \(RSS\) | \(n-r\) | \(RSS/(n-r)\) | |
总计 | \(TSS\) | \(n-1\) | \(TSS/(n-1)\) |
author: virgilwjj
5 线性回归模型
5.1 一元线性回归
5.1.1 一元回归分析
\(Y = X\beta+\varepsilon\)
\(X=\begin{bmatrix} 1 & x_1 \\ 1 & x_2 \\ … & … \\ 1 & x_n \\ \end{bmatrix}\)
\(\beta=\begin{bmatrix} \beta_0 & \beta_1 \end{bmatrix}^T\)
\(\varepsilon \sim N(0, \sigma^2 I_n)\)
\(Y \sim N(X\beta, \sigma^2 I_n)\)
\(S=X^T X\)
\(\hat \beta=\begin{bmatrix} \hat \beta_0 & \hat \beta_1 \end{bmatrix}^T\)
\(\hat \beta \sim N(\beta, \sigma^2 S^{-1})\)
\(S^{-1}=\frac{1}{L_{x x}}\begin{bmatrix} \frac{\sum_{i=1}^{n}x_i^2}{n} & -\bar x \\ -\bar x & 1 \end{bmatrix}\)
5.1.1 最小二乘法
\(\hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x}\)
回归系数估计:\(\hat{\beta}_{1}=\frac{L_{x y}}{L_{x x}}\)
误差方差估计:\(\hat{\sigma}^{2}=\frac{RSS}{n-2}\)
总平方和: \(TSS=\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=L_{y y}\)
回归平方和:\(RegSS=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}=\frac{L_{x y}^{2}}{L_{x x}}\)
残差平方和 \(RSS=\sum_{i=1}^{n}\left(y_{i}-\hat{y_i}\right)^{2}\)
相关系数 \(r^2=\frac{RegSS}{TSS}=\frac{L_{x y}^2}{L_{x x} L_{y y}}\)
性质:
- \(TSS=RegSS+RSS\)
- \(\frac{RSS}{\sigma^{2}}=\frac{(n-2) \hat{\sigma}^{2}}{\sigma^{2}} \sim \chi^{2}(n-2)\)
- \(\frac{RegSS}{\sigma^{2}} \sim \chi^{2}(1)\)
- \(\hat{\beta}_{0} \sim N\left(\beta_{0}, \sigma^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{L_{x x}}\right)\right)=N\left(\beta_{0}, \frac{\sigma^{2} \sum_{i=1}^{n}x_i^2}{nL_{x x}}\right)\)
- \(\hat{\beta}_{1} \sim N\left(\beta_{1}, \frac{\sigma^{2}}{L_{x x}}\right)\)
- \(\hat \beta_0\) 与 \(\hat \beta_1\) 不独立,协方差为 \(Cov\left(\hat{\beta}_{0}, \hat{\beta}_{1}\right)=-\sigma^{2} \frac{\bar x}{L_{x x}}\)
5.1.2 回归关系检验—— \(F\) 检验法
\(H_0\):\(\beta_1=0\)
\(H_1\):\(\beta_1 \ne 0\)
检验统计量:\(F=\frac{RegSS}{RSS/(n-2)}=\frac{(n-2)L_{x x}^2}{L_{x x}L_{y y}-L_{x y}^2}=\frac{(n-2)r^2}{1-r^2}\)
拒绝域:\(F>F(1,n-2)\)
方差来源 | 平方和 | 自由度 | 均方 | F |
---|---|---|---|---|
回归变量 | \(RegSS\) | \(1\) | \(RegSS\) | \(\frac{RegSS}{RSS/(n-2)}\) |
残差变量 | \(RSS\) | \(n-2\) | \(RSS/(n-2)\) | |
总计 | \(TSS\) | \(n-1\) | \(TSS/(n-1)\) |
5.1.3 回归关系检验—— \(t\) 检验法
\(\hat{\beta}_{1} \sim N\left(\beta_{1}, \frac{\sigma^{2}}{L_{x x}}\right)\)
\(\frac{(n-2) \hat{\sigma}^{2}}{\sigma^{2}} \sim \chi^{2}(n-2)\)
检验统计量:\(t=\frac{\hat \beta_1 - \beta_1}{\hat \sigma} \sqrt{L_{x x}} \sim t(n-2)\)
拒绝域:\(|t| > t_{\alpha/2}(n-2)\)
5.1.4 回归关系检验—— \(r\) 检验法
检验统计量:\(r=\sqrt{\frac{RegSS}{TSS}}=\sqrt{\frac{L_{x y}^2}{L_{x x} L_{y y}}}\)
拒绝域:\(|r| > r_{\alpha}(n-2)\)
5.1.5 利用回归方程进行预测(\(y_0\) 的区间估计,\(x_0\) 对区间的控制)
\(\hat y_0 = \hat \beta_0 + \hat \beta_1 x_0=(1, x_0) (\hat \beta_0, \hat \beta_1)^T\)
\(\hat y_0 \sim N(\beta_0 + \beta_1 x_0, \sigma^2 [\frac{1}{n}+\frac{(x_0 - \bar x)^2}{L_{x x}}])\)
\(y_0=\hat \beta_0 + \hat \beta_1 x_0 + \varepsilon_0\)
\(y_0 \sim N(\beta_0 + \beta_1 x_0, \sigma^2)\)
\(y_0 - \hat y_0 \sim N(0, \sigma^2[1 + \frac{1}{n}+\frac{(x_0 - \bar x)^2}{L_{x x}}])\)
\(\frac{(n-2) \hat{\sigma}^{2}}{\sigma^{2}} \sim \chi^{2}(n-2)\)
检验统计量:\(t=\frac{y_0 - \hat y_0}{\hat \sigma \sqrt{1 + \frac{1}{n}+\frac{(x_0 - \bar x)^2}{L_{x x}}}} \sim t(n-2)\)
置信区间:\(|t|<t_{\alpha/2}(n-2)\)
5.1.6 \(\beta_0\) 的区间估计
\(\hat{\beta}_{0} \sim N\left(\beta_{0}, \sigma^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{L_{x x}}\right)\right)\)
\(\frac{(n-2) \hat{\sigma}^{2}}{\sigma^{2}} \sim \chi^{2}(n-2)\)
检验统计量:\(t=\frac{\hat \beta_0 - \beta_0}{\hat \sigma \sqrt{\frac{1}{n}+\frac{\bar{x}^{2}}{L_{x x}}}} \sim t(n-2)\)
置信区间:\(|t|<t_{\alpha/2}(n-2)\)