统计量及其分布
目录
总体与样本
- 总体:研究对象的全体,总体即分布。
- 个体:构成总体的每一个成员。
- 样本:从总体中抽出n个个体组成样本。
- 样本容量:样本中的个体数n。
- 简单随机抽样:
- 抽样过程具有随机性,即每个个体有同样的概率被抽到,每个样本与总体具有相同的分布。
- 抽样过程具有独立性,即每个个体被抽取不影响其他个体被抽取。
统计量及其分布
- 统计量:设\(x_1,x_2,x_3…x_n\)是取自某总体的样本,若样本函数\(T = T(x_1,x_2,x_3…x_n)\)中不含任何未知参数,则称\(T\)为统计量。
样本均值、方差等都是样本统计量。
- 定理1:样本观测值与均值的偏差平方和最小,即在\(\sum(x_i-c)^2\)中,\(\sum(x_i-\bar x)^2\)最小.
证明:
\[\begin{split}\sum (x_i-c)^2&=\sum(x_i-\bar x+\bar x-c)^2\\&=\sum(x_i-\bar x)^2+\sum(\bar x -c)^2+2\sum(x_i-\bar x)(\bar x -c)\\&=\sum(x_i-\bar x)^2+\sum(\bar x -c)^2\end{split}
\]
- 定理2:
- 若
\[X\sim N(\mu,\sigma^2) \]则\[\bar x\sim N(\mu,\frac {\sigma^2}{ n}) \]- 若\(X\)分布未知或不是正态分布,但\(EX=\mu,DX=\sigma^2\),则\(\bar x\)近似服从于上述分布。
以上两条定理可分别通过卷积公式和中心极限定理证明。
- 定理3:设总体\(X\)有二阶矩,即\(EX=\mu,DX=\sigma^2\),则
\[E(\bar x)=\mu,D(\bar x)=\frac {\sigma^2}n,E(s^2)=\sigma^2
\]
- k阶原点矩:
\[a_k=\frac 1n\sum x_i^k
\]
- k阶中心矩:
\[b_k=\frac 1n \sum(x_i-\bar x)^k
\]
- 次序统计量:将样本\(x_1,x_2,x_3…x_n\)按照从小到大的顺序排列,\(x_{(i)}\)称为第i次序统计量。次序统计量既不独立也不同分布。
三大抽样分布
伽马分布
伽马函数
- 伽马函数:
\[\Gamma(\alpha)=\int_0^{\infty}x^{\alpha-1}e^{-x}dx
\]
- 性质1:
\[\Gamma(1)=\int_0^{\infty}e^{-x}dx=1
\]
- 性质2:
\[\Gamma(\frac 12)=\sqrt \pi
\]
证明:
\[\begin{split}\Gamma(\frac 12)&=\int_0^{\infty}x^{-\frac 12}e^{-x}dx\\&=2\int_0^{\infty}e^{-t^2}dt\\&=\sqrt\pi\end{split}
\]
- 性质3:
\[\Gamma(\alpha+1)=\alpha\Gamma(\alpha)
\]
可用分部积分证明。
伽马分布
若\(X\)的概率密度函数为
\[f(x)\left\{\begin{matrix}
{\frac {\lambda^\alpha}{\Gamma(\alpha)}}x^{\alpha-1}e^{-\lambda x}& x\geq 0\\
0 & x<0
\end{matrix}\right.\]
则称\(X\)服从伽马分布,记作\(X\sim Ga(\alpha,\lambda),\alpha>0,\lambda>0\)
- 均值:
\[\begin{split}EX&={\frac {\lambda^\alpha}{\Gamma(\alpha)}}\int_0^{\infty} x^{\alpha}e^{-\lambda}dx\\&=\frac 1{\Gamma(\alpha)\lambda}\int_0^{\infty}(\lambda x)^{\alpha}e^{-\lambda x}d\lambda x\\&=\frac {\alpha}{\lambda}\end{split}
\]
- 方差:
\[\begin{split}EX^2&={\frac {\lambda^\alpha}{\Gamma(\alpha)}}\int_0^{\infty} x^{\alpha+1}e^{-\lambda}dx\\&=\frac 1{\Gamma(\alpha)\lambda^2}\int_0^{\infty}(\lambda x)^{\alpha+1}e^{-\lambda x}d\lambda x\\&=\frac {\alpha(\alpha+1)}{\lambda^2}\end{split}
\]
\[DX=EX^2-(EX)^2=\frac \alpha{\lambda^2}
\]
卡方分布
- 卡方分布:\(X_i\)是标准正态分布
\[\chi^2(n)=\sum_{i=1}^nX_i^2
\]
卡方分布是伽马分布的一个特殊情况。
\[\chi^2(n)\sim Ga(\frac n2,\frac 12)
\]
- 均值与方差:
\[E\chi^2=n
\]
\[D\chi^2=2n
\]
- 定理:设\(x_1,x_2…x_n\)是来自正态分布\(N(\mu,\sigma^2)\)的样本,样本均值和方差分别为:
\[\bar x = \frac 1n\sum_{i=1}^n x_i
\]
\[s^2=\frac 1{n-1}\sum_{i=0}^n(x_i-\bar x)^2
\]
则有:
- \(\bar x\)与\(s^2\)相互独立。
- \(\bar x\sim N(\mu,\sigma^2)\)
- \(\frac {(n-1)s^2}{\sigma^2}\sim \chi^2(n-1)\)
F分布
- F分布:设\(X_1\sim \chi^2(m),X_2\sim \chi^2(n)\),\(X_1,X_2\)相互独立,则称
\[F=\frac {\chi^2(m)/m}{\chi^2(n)/n}
\]
为自由度是\(m\)和\(n\)的F分布。
t分布
- t分布:随机变量\(X_1\),\(X_2\)相互独立且\(X_1\sim N(0,1),X_2\sim \chi^2(n)\),则称
\[t(n)=\frac {X_1}{\sqrt{X_2/n}}
\]
服从于自由度为\(n\)的\(t\)分布
- 推论1:设\(x_1,x_2,x_3...x_n\)独立同分布于\(N(\mu,\sigma^2)\),\(\bar x\)与\(s^2\)分别是样本均值和样本方差,则
\[t=\frac{\sqrt n (\bar x-\mu)}{s}\sim t(n-1)
\]
证明:由题意,
\[\bar x\sim N(\mu,\frac {\sigma^2}{n})
\]
则有
\[\frac {\bar x -\mu}{\sigma/\sqrt n}\sim N(0,1)
\]
又有
\[\frac {(n-1)s^2}{\sigma^2}\sim\chi^2(n-1)
\]
够造t分布则原命题得证
- 推论2:\(X,Y\)为相互独立的正态分布,且\(\sigma_x=\sigma_y=\sigma\),\(x_1,x_2...x_m\)和\(y_1,y_2..y_n\)是两正态分布的一组样本。记
\[s_w^2=\frac{(m-1)s_x^2+(n-1)s_y^2}{m+n-2}
\]
则
\[\frac {(\bar x-\bar y)-(\mu_x-\mu_y)}{s_w\sqrt{\frac 1m+\frac 1n}}\sim t(m+n-2)
\]
证明:易知
\[\bar x\sim N(\mu_x,\frac{\sigma^2}m)
\]
\[\bar y\sim N(\mu_y,\frac{\sigma^2}n)
\]
则
\[\bar x-\bar y \sim N[\mu_x-\mu_y,(\frac 1m+\frac 1n)\sigma^2]
\]
构造标准正态分布:
\[\frac{\bar x-\bar y-(\mu_x-\mu_y)}{\sqrt{(\frac 1m+\frac 1n)}\sigma}\sim N(0,1)
\]
构造卡方分布:
\[\frac {(m-1)s_x^2}{\sigma^2}+\frac{(n-1)s_y^2}{\sigma^2}\sim \chi^2(m+n-2)
\]
代入t分布表达式可证原命题。