为什么样本方差(sample variance)的分母是 n-1
为什么样本方差(sample variance)的分母是 n-1
一、总结
一句话总结:
为1/n的分布倾向于低估σ^2,所以选1/(n-1)
【实际算出来就是n/(n-1)这样的关系】:$$E [ \frac { 1 } { n } \sum _ { i = 1 } ^ { n } ( X _ { i } - \overline { X } ) ^ { 2 } ] = \sigma ^ { 2 } - \frac { 1 } { n } \sigma ^ { 2 } = \frac { n - 1 } { n } \sigma ^ { 2 }$$
$$S ^ { 2 } = \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } ( X _ { i } - \overline { X } ) ^ { 2 }$$
1、为什么可以用S^2来近似σ^2?
采样具有随机性,我们多采样几次,S^2会围绕σ^2上下波动
$$\sigma ^ { 2 } = E [ ( X - \mu ) ^ { 2 } ]$$
$$S ^ { 2 } = \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } ( X _ { i } - \overline { X } ) ^ { 2 }$$
2、计算方差流程?
【不知分布】:如果已知随机变量X的期望为μ,那么可以如下计算方差σ^2:$$\sigma ^ { 2 } = E [ ( X - \mu ) ^ { 2 } ]$$,上面的式子需要知道X的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。
【用S^2来近似σ^2】:所以实践中常常采样之后,用下面这个S^2来近似σ^2:$$S ^ { 2 } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } ( X _ { i } - \mu ) ^ { 2 }$$
【期望μ不知】:其实现实中,往往连X的期望μ也不清楚,只知道样本的均值:$$\overline { X } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i }$$
【1/(n-1)】:那么可以这么来计算S^2:$$S ^ { 2 } = \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } ( X _ { i } - \overline { X } ) ^ { 2 }$$
二、为什么样本方差(sample variance)的分母是 n-1(转)
转自:https://www.matongxue.com/madocs/607(转)
先把问题完整的描述下。
如果已知随机变量的期望为,那么可以如下计算方差:
上面的式子需要知道的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。
所以实践中常常采样之后,用下面这个来近似:
其实现实中,往往连的期望也不清楚,只知道样本的均值:
那么可以这么来计算:
那这里就有两个问题了:
-
为什么可以用来近似?
-
为什么使用替代之后,分母是?
我们来仔细分析下细节,就可以弄清楚这两个问题。
1 为什么可以用来近似?
举个例子,假设服从这么一个正态分布:
即,,图形如下:
当然,现实中往往并不清楚服从的分布是什么,具体参数又是什么?所以我用虚线来表明我们并不是真正知道的分布:
很幸运的,我们知道,因此对采样,并通过:
来估计。某次采样计算出来的:
看起来比要小。采样具有随机性,我们多采样几次,会围绕上下波动:
用作为的一个估计量,算是可以接受的选择。
很容易算出:
因此,根据中心极限定理,的采样均值会服从的正态分布:
这也就是所谓的无偏估计量。从这个分布来看,选择作为估计量确实可以接受。
2 为什么使用替代之后,分母是?
更多的情况,我们不知道是多少的,只能计算出。不同的采样对应不同的:
对于某次采样而言,当时,下式取得最小值:
我们也是比较容易从图像中观察出这一点,只要偏离,该值就会增大:
所以可知:
可推出:
进而推出:
如果用下面这个式子来估计:
那么采样均值会服从一个偏离的正态分布:
可见,此分布倾向于低估。
具体小了多少,我们可以来算下:
其中:
所以我们接着算下去:
其中:
所以:
也就是说,低估了,进行一下调整:
因此使用下面这个式子进行估计,得到的就是无偏估计: