方差和样本方差
概率论中方差用来度量随机变量和其数学期望之间的偏离程度,也称为总体方差。
设总体为 $X$,$X_{1},X_{2},\cdots,X_{n}$ 为来自总体的样本,样本容量为 $n$,总体的数学期望和方差分别为 $\mu,\sigma^{2}$,样本均值为 $\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_{i}$。
总体方差定义为
$$\sigma^{2} = E\left [ (X - \mu)^{2} \right ]$$
其实总体方差就是随机变量 $Y = (X - \mu)^{2}$ 的均值。将上面这个式子展开就得到我们常用的方差公式:
$$\sigma^{2} = E\left [ (X - \mu)^{2} \right ] = E(X^{2}) - E^{2}(X)$$
上面的式子需要知道 $X$ 的具体分布是什么,这样才能得到 $X$ 的所有可能取值和其数学期望,但现实中一般不可能会知道。
所以采用样本方差来估计总体方差,样本方差的形式如下:
$$S^{2} = \frac{1}{n - 1}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )^{2}$$
为什么前面是 $\frac{1}{n-1}$ 而不是 $\frac{1}{n}$,假设样本方差的统计量为:
$$S^{2} = \frac{1}{n}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )^{2}$$
先来看看这个统计量的期望:
$$E(S^{2}) = E\left [ \frac{1}{n}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )^{2} \right ] = E\left [ \frac{1}{n}\sum_{i=1}^{n} \bigg( (X_{i} - \mu) - (\bar{X} - \mu) \bigg)^{2} \right ] \\
= E\left [ \frac{1}{n}\sum_{i=1}^{n} \bigg( (X_{i} - \mu)^{2} - 2(X_{i} - \mu)(\bar{X} - \mu) + (\bar{X} - \mu)^{2} \bigg) \right ] \\
= E\left [ \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \mu)^{2} - \frac{2}{n}(\bar{X} - \mu)\sum_{i=1}^{n}(X_{i} - \mu) + (\bar{X} - \mu)^{2} \bigg) \right ] \\
= E\left [ \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \mu)^{2} - \frac{2}{n}(\bar{X} - \mu)n(\bar{X} - \mu) + (\bar{X} - \mu)^{2} \bigg) \right ] \\
= E\left [ \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \mu)^{2} - (\bar{X} - \mu)^{2} \bigg) \right ]$$
因为 $X_{i}$ 和 $X$ 独立同分布,所以有
$$E\left [ \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \mu)^{2} \right ] = E\left [ \frac{1}{n}\sum_{i=1}^{n} ( X_{i}^{2} - 2X_{i}\mu + \mu^{2} ) \right ] \\
= \frac{1}{n}\sum_{i=1}^{n} \left [ E(X_{i}^{2}) - \mu^{2} \right ] = \sigma^{2}$$
$$E(\bar{X}^{2}) = D(\bar{X}) + E^{2}(\bar{X}) = \frac{1}{n}\sigma^{2} + \mu^{2}$$
$$E\left [ (\bar{X} - \mu)^{2} \right ] = E\left [ \bar{X}^{2} - 2\bar{X}\mu + \mu^{2} \right ] = \frac{1}{n}\sigma^{2}$$
所以有
$$E(S^{2}) = \frac{n-1}{n}\sigma^{2}$$
方差统计量的期望不等于总体的方差,会比真实值低了 $\frac{1}{n}\sigma^{2}$,所以需要进行修正,因此使用下面这个式子进行估计,得到的就是无偏估计:
$$S^{2} = \frac{1}{n - 1}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )^{2}$$