学习笔记 - 概率统计 - 统计总体与样本
统计总体与样本
从概率论到数理统计:
- 大量分布的平均值是稳定的
- 大量独立的随机变量之和近似服从正态分布
经典统计学的推断过程:
- 得到大量样本
- 用数据的统计量来估计未知模型的参数,得到概率模型 —— 大数定律
- 利用统计量的分布给出误差或者进行假设检验,为了得到统计量的分布,通常会假设其为正态分布 —— 中心极限定理
样本矩与统计量
样本矩
设 \(X_1, X_2, \cdots, X_n\) 为来自总体 \(X\) 的一个样本
-
样本均值 \(\overline{X}=\cfrac{1}{n}\sum\limits_{i=1}^{n}X_i\)
-
样本方差 \(S^2=\cfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2=\cfrac{1}{n-1}[\sum\limits_{i=1}^nX_i^2-n\overline{X}^2]\)
-
样本标准差 \(S = \sqrt{S^2}=\sqrt{\cfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2}\)
-
样本 \(k\) 阶原点矩 \(A_k = \cfrac{1}{n}\sum\limits_{i=1}^nX_i^k,k=1,2,\cdots\)
-
样本 \(k\) 阶中心矩 \(B_k=\cfrac{1}{n}\sum\limits_{i-1}^n(X_i-\overline{X})^k,k=1,2,\cdots\)
若 \(X_i\) 来自样本的观察值,以上计算结果也称为对应样本矩的观察值
统计量
设 \(X_1, X_2, \cdots, X_n\) 为来自总体 \(X\) 的一个样本, \(g(X_1, X_2, \cdots, X_n )\) 是一个不含有其他未知量的连续函数,则称 \(g(X_1, X_2, \cdots, X_n )\) 是一个统计量
顺序统计量
设 \(X_1, X_2, \cdots, X_n\) 为来自总体 \(X\) 的一个样本, \(x_1, x_2, \cdots, x_n\) 是样本的观察值,将其按观察值的大小顺序排列,得到一组顺序统计量 \(X_1^*, X_2^*, \cdots, X_n^*\), \(X_1^*\) 为最小顺序统计量, \(X_n^*\) 为最大顺序统计量
经验分布函数
常用统计量的分布
正态分布
设总体 \(X\sim N(\mu,\sigma^2)\),\(X_1,X_2,\cdots,X_n\) 是来自于 \(X\) 的一个样本
- \(\overline{X}\sim N(\mu,\cfrac{\sigma^2}{n})\)
- \(\cfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0, 1)\)
- \(\cfrac{X_i-\mu}{\sigma}\sim N(0,1)\)
- \(\cfrac{1}{\sqrt{n}}\sum\limits_{i=1}^{n}\cfrac{X_i-\mu}{\sigma}\sim N(0,1)\)
- \(X_j-\overline{X}\sim N(0,\cfrac{n-1}{n}\sigma^2)\)
\(\chi^2\) 分布
设总体 \(X\sim N(0,1)\),\(X_1,X_2,\cdots,X_n\) 是来自于 \(X\) 的一个样本,则称 \(\chi^2=X_1^2+\cdots+X_n^2\) 为服从自由度为 \(n\) 的 \(\chi^2\) 分布,记为 \(\chi^2\sim \chi^2(n)\)
自由度为 \(n\) 的 \(\chi^2(n)\) 的密度函数为
\(E(\chi^2)=n, D(\chi^2)=2n\)
\(\chi^2\) 分布的性质
若 \(X_1, X_2, \dots, X_n\) 是来自正态总体 \(N(\mu,\sigma^2)\) 的样本,则 \(\sum\limits_{i=1}^n(\cfrac{X_i-u}{\sigma})^2\sim \chi^2(n)\)
设 \(X_1\sim\chi^2(n_1),X_2\sim\chi^2(n_2)\) 则 \(X_1+X_2\sim\chi^2(n_1+n_2)\)
\(\cfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\)
\(\cfrac{(n-1)S}{\sigma^2}\sim\chi^2(n-1)\)
\(\overline{X}\) 与 \(S^2\) 独立
t 分布 (student 分布)
设 \(X\sim N(0,1),Y\sim\chi^2(n)\) 且相互独立,则 \(T=\cfrac{X}{\sqrt{Y/N}}\) 服从自由度为 \(n\) 的 \(t\) 分布,记为 \(T\sim t(n)\)
\(f(t)=\cfrac{\Gamma[(n+1)/2]}{\sqrt{n\pi}\Gamma(n/2)}\left(1+\cfrac{t^2}{n}\right)^{-(n+1)/2}\)
t 分布的性质
\(f(t)\) 关于 \(t = 0\) 对称,且 \(\lim\limits_{n\to\infty}f(t)=\cfrac{1}{\sqrt{2\pi}}e^{-t^2/2}\)
当 \(n\) 充分大时, \(t\) 分布近似于标准正态分布 \(N(0, 1)\)
若 \(X_1,X_2,\cdots,X_n\) 是总体 \(N(\mu, \sigma^2)\) 的样本, \(\overline{X}, S^2\) 是样本均值和样本方差,则 \(\cfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)\)
F 分布
若 \(U\sim\chi^2(n_1), V\sim\chi^2(n_2)\) 且相互独立,则 \(F=\cfrac{U/n_1}{V/n_2}\),记为 \(F\sim F(n_1, n_2)\)
概率密度估计没人会想知道(
设 \(X_1, \cdots,X_m\) 和 \(Y_1, \cdots, Y_n\) 分别来自 \(N(\mu_1,\sigma_1^2)\) 和 \(N(\mu_2, \sigma_2^2)\) 则 \(F=\cfrac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(m-1,n-1)\)