06 样本及抽样分布 | 概率论与数理统计
1. 随机样本
1. 总体与个体
- 总体:研究对象的全体,即试验的全部可能观察值称为总体
- 个体:总体当中的每个对象,总体中的每个可能观察值成为个体
- 容量:总体中所包含的个体的个数称为总体的容量
- 总体按容量分类
- 有限总体:容量为有限的称为有限总体
- 无限总体:容量为无限的称为无限总体
2. 样本与样本值
- 样本:从总体\(X\)中随机的抽取\(n\)个个体\(X_1,X_2,\dots,X_n\),这样取得的\(X_1,X_2,\dots,X_n\)称为来自总体\(X\)(分布函数相同)的一个 样本
- 样本容量:样本中个体的总数\(n\)
- 样本值:\(X_1,X_2,\dots,X_n\)的一组观察值\(x_1,x_2,\dots,x_n\)
- 简单随机样本:在总体中抽取样本的目的是为了对总体的分布规律进行各种分析推断,这就要求抽取的样本能够反映总体的特点,为此必须对随机抽取样本的方法提出如下
- 独立性:\(X_1,X_2,\dots,X_n\)是相互独立的随机变量
- 代表性:要求样本的每个\(X_i(i = 1,2,\dots,n)\)与总体\(X\)具有相同的分布
- 样本\(X_1,X_2,\dots,X_n\)的特点
- 相互独立且与\(X\)同分布
- 如果总体\(X\)具有分布函数\(F(x)\),概率密度\(f(x)\),那么样本的分布函数以及概率密度为\[ F^\ast(X_1,X_2,\cdots,x_n) = \prod_{i=1}^nF(x_i),\space f^\ast(X_1,X_2,\cdots,x_n) = \prod_{i=1}^nf(x_i) \]
2. 抽样分布
1. 统计量
- 统计量:设\(X_1,X_2,\dots,X_n\)是来自总体\(X\)的一个样本,\(g(X_1,X_2,\dots,X_n)\)是\(X_1,X_2,\dots,X_n\)的函数,如果\(g\)中不含任何的未知参数,则称\(g(X_1,X_2,\dots,X_n)\)是一个 统计量
- 统计量是一个随机变量
- \((x_1,x_2,\dots,x_n)\)是样本\((X_1,X_2,\dots,X_n)\)的观察值,那么\(g(x_1,x_2,\dots,x_n)\)是\(g(X_1,X_2,\dots,X_n)\)的观察值
- 常用的统计量:设\(X_1,X_2,\dots,X_n\)是来自总体\(X\)的一个样本,\((x_1,x_2,\dots,x_n)\)是其观察值
- 样本均值:\(\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i\)
- 样本方差:\(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\bar{X}^2)\) (注意是n-1)
- 样本标准差:\(S=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2}\)
- 样本k阶原点矩:\(A_k=\frac{1}{n}\sum_{i=1}^nX_i^k\)
- 样本k阶中心矩:\(B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^k\)
- 样本矩的性质
- 如果总体\(X\)的\(k\)阶矩\(E(X^k)=\mu_k\)存在,则当\(n\to\infty,A_k\stackrel{P}{\longrightarrow}\mu_k\)
- \(g(A_1,A_2,\cdots,A_n)\stackrel{P}{\longrightarrow}g(\mu_1,\mu_2,\cdots,\mu_n)\),其中\(g\)是连续函数
2. 经验分布函数
- 经验分布函数:记\(x_1,x_2,\dots,x_n\)是来自分布函数\(F(x)\)的总体\(X\)的样本观察值,\(X\)的 经验分布函数 记为\(F_n(x)\),定义为样本观察值\(x_1,x_2,\dots,x_n\)中小于等于指定值\(x\)所占的比例;记\(\sharp(x_i\le x)\)为\(x_1,x_2,\dots,x_n\)中小于等于指定值\(x\)的个数,则\[F_n(x) = \frac{\sharp(x_i\le x)}{n},\space-\infty<x<+\infty \]
- 经验函数的性质
- \(F_n(x)\)是不减函数
- \(0\le F_n(x)\le 1\),且\(F(-\infty)=0,F(+\infty)=1\)
- \(F_n(x)\)右连续
- 当\(x_1,x_2,\dots,x_n\)各不相同时,\(F_n(x)\)以等概率\(\frac{1}{n}\)取\(x_1,x_2,\dots,x_n\)的离散型随机变量的分布函数
- 一般地,设\(x_1,x_2,\dots,x_n\)是总体\(F\)的一个容量为\(n\)的样本值,先将\(x_1,x_2,\dots,x_n\)按自小到大的次序排列,重新编号\(x_{(1)}\le x_{(2)}\le\cdots\le x_{(n)}\),则经验分布函数\(F_n(x)\)的观察值为\[F_n(x)= \left\{\begin{matrix} 0,&x<x_{(1)} \\ \frac{k}{n},&x_{(k)}\le x\le x_{(k+1)},k=1,2,\cdots,n-1\\ 1,&x\ge x_{(n)} \end{matrix}\right. \]
- 格里汶科定理:对于任一实数\(x\),当\(n\to\infty\)时,\(F_n(x)\)以概率1一致收敛于分布函数\(F(x)\),即\(P(\lim_{n\to\infty}\sup_{-\infty<x<+\infty}|F_n(x)-F(x)|=0)=1\)对于任一实数\(x\),当\(n\)充分大时,经验分布函数的任一个观察值\(F_n(x)\)与总体分布函数\(F(x)\)只有微小的差别,从而在实际上可当作\(F(x)\)使用
3. 常用统计量的分布
- \(\chi^2\)分布
- 设\(X_1,X_2,\dots,X_n\)是来自总体\(N(0,1)\)的一个样本,则称统计量\(\chi^2=X_1^2+X_2^2+\dots+X_n^2\)服从自由度为\(n\)的\(\chi^2\)分布,记为\(\chi^2\sim\chi^2\)
- 概率密度函数
- \(\chi^2(n)=\Gamma(\frac{n}{2},2)\)
- \(\chi^2(n)\)分布的概率密度为\[f(y)= \left\{\begin{matrix} \frac{1}{2^{n/2}\Gamma(n/2)}y^{\frac{n}{2}-1}e^{-y/2},&y>0 \\ 0,&其他 \end{matrix}\right. \]其中\[\Gamma(\frac{n}{2})=\int_{0}^{+\infty}e^{-x}x^{\frac{n}{2}-1}dx \]
- \(\chi^2\)分布的性质
- 可加性:设\(\chi_1^2\sim\chi^2(n_1),\chi_2^2\sim\chi^2(n_2)\)并且\(\chi_1^2,\chi_2^2\)相互独立,则\(\chi_1^2+\chi_2^2\sim\chi^2(n_1+n_2)\)
- 推广到多个随机变量:设\(\chi_i^2\sim\chi_i^2(n_i)\),并且相互独立,则\(\sum_{i=1}^m\chi_i^2\sim\chi^2(n_1+n_2+\cdots+n_m)\)
- 若\(\chi^2\sim\chi^2\),则\(E(\chi^2)=n,D(\chi^2)=2n\)
- \(\chi^2\)分布的分位点
-
对于给定的正数\(\alpha,0<\alpha<1\),称满足条件\(P(\chi^2>\chi_\alpha^2(n))=\int_{\chi_\alpha^2(n)}^\infty f(y)dy=\alpha\)的点\(\chi_\alpha^2(n)\)为\(\chi^2(n)\)分布的上\(\alpha\)分位点
-
费希尔:当\(n\)充分大时,\(\chi_\alpha^2(n)\approx\frac{1}{2}(z_\alpha+\sqrt{2n-1})^2\),其中\(z_\alpha\)时标准正态分布的上\(\alpha\)分位点
-
- \(t\) 分布
- \(t\) 分布:设\(X\sim N(0,1),Y\sim\chi^2(n)\),且\(X,Y\)独立,则称随机变量\(t = \frac{X}{\sqrt{Y/n}}\)服从自由度为\(n\)的\(t\)分布,记为\(t\sim t(n)\)
- 概率密度函数:\[h(t)=\frac{\Gamma(\frac{(n+1)}{2})}{\sqrt{\pi n}\Gamma(n/2)}(1+\frac{t^2}{n})^{-(n+1)/2},\space-\infty<x<+\infty \]
- \(t\) 分布的分位点
-
对于给定的\(\alpha,0<\alpha<1\),称满足条件\(P(t>t_\alpha(n))=\int_{t\alpha(n)}^\infty h(t)dt=\alpha\)的点\(t_\alpha(n)\)为\(t(n)\)分布的上\(\alpha\)分位点
-
\(t_{1-\alpha}=-t_\alpha(n)\)
-
- \(F\) 分布
- \(F\) 分布:设\(U\sim\chi^2(n_1),V\sim\chi^2(n_2)\),且\(U,V\)相互独立,则称\(F=\frac{U/n_1}{V/n_2}\)时服从自由度为\((n_1,n_2)\)的\(F\)分布
- 如果\(F\sim F(n_1,n_2)\),则\(1/F\sim F(n_2,n_1)\)
- \(F\) 分布的分位点:对于给定的\(\alpha,0<\alpha<1\),称满足条件\(P(F>F_\alpha(n_1,n_2))=\int_{F\alpha(n_1,n_2)}^\infty \psi(y)dy=\alpha\)的点\(F_\alpha(n_1,n_2)\)为\(F(n_1,n_2)\)分布的上\(\alpha\)分位点
4. 正态总体的样本均值与样本方差的分布
- 设总体\(X\)的均值为\(\mu\), 方差为\(\sigma^2, X_1, X_2 ,\dots, X_n\)是来自总体\(X\)的样本,则总有\(\bar{X}\sim N(\mu,\frac{\sigma^2}{n})\)\[E(\bar{X})=\mu,D(\bar{X})=\frac{\sigma^2}{n},E(S^2)=\sigma^2 \]
- \(\sum_{i=1}^n\frac{(X_i-\bar{X})^2}{\sigma^2}=\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\)
- \(\bar{X},S^2\)独立
- \(\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)\)
- 设\(X_1,X_2,\dots,X_{n_1}\)与\(Y_1,Y_2,\dots,Y_{n_2}\)分别来自正态分布总体\(N(\mu_1,\sigma_1^2),N(\mu_2,\sigma_2^2)\)的样本,而且这两个样本相互独立,两个样本的均值和方差分别是\(\bar{X},\bar{Y},S_1^2,S_2^2\),则有
- \(\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)\)
- 当\(\sigma_1=\sigma_2=\sigma\)时\[\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_{\varpi}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2) \]其中\(S_{\varpi}^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2},S_\varpi=\sqrt{S_\varpi^2}\)