样本方差的无偏估计与（n-1）的由来

在PCA算法中用到了方差，协方差矩阵，其中方差公式为，协方差矩阵公式为，当时不明白为什么除的不是m，而是m-1，那么想要知道为何，下面就是你想要的答案。

假设X为独立同分布的一组随机变量，总体为M，随机抽取N个随机变量构成一个样本，和是总体的均值和方差, 是常数。是对样本的均值和方差，由于样本是随机抽取的，也是随机的。

这里需要注意的是，由于样本是随机的，所以X₁，X₂，X₃...都是随机的。上式中可以看出，样本均值这个变量的期望就是总体的均值，因此可以说均值是无偏的。

接下来看样本方差的均值：

根据方差公式，可以得到：

因此：

这里可以看出样本方差的期望并不是无偏的，要无偏估计，应该再乘上一个系数：

。

n-1既为自由度，就是说，在一个容量为n的样本里，当确定了n-1个变量以后，第n个变量就确定了，因为样本均值是无偏的。
协方差除以m-1原理和方差一样，因为方差为协方差的特殊情况。

这个知乎上的讨论更加透彻:

http://www.zhihu.com/question/20099757

posted @ 2016-02-14 02:39 简单数字阅读(821) 评论(0) 编辑收藏举报

刷新页面返回顶部

啊Q大爷