关于概率问题中的协方差和统计中的协方差的疑问

一,概率中协方差的定义:

概率中协方差是随机变量的数字特征,即在二维随机变量分布中,对二维随机变量(X,Y),若E(X),E(Y),E{ [ X-E(X) ] [ Y-E(Y) ] } 都存在,

则称 E{ [ X-E(X) ] [ Y-E(Y) ] } 为X与Y的协方差(或相关矩),记为Cov(X,Y)。Cov(X,Y)=E{ [ X-E(X) ] [ Y-E(Y) ] }=E(XY)-E(X)E(Y)。

说明两点:

1.这里的协方差是基于二维随机变量分布的计算,即和(X,Y)的样本值和(X,Y)的联合概率有关。

2.当X和Y是离散型随机变量时,他们分别对应的样本空间的大小不必相同,即X的样本数和Y的样本数可以不同。而且计算X和Y的全部组合。

 

二,在统计过程中,是用二阶混合中心矩来估计协方差,二阶混合中心矩统计量为:

cov(X,Y)=\frac{\sum_{i=1}^n (X_{i}-\bar{X})(Y_{i}-\bar{Y})}{n-1}

说明两点:

1.这里协方差完全是基于样本值,就像其他统计量一样。

2.X和Y的样本空间大小相同,各个样本组成样本对,这就和原协方差在形式上有了较大出入。当然,统计的思想就是面向大量样本,用数量来表现变量的分布,同时实现概率的具体效果。

 

补充说明:

1.在统计中,X和Y就是维度相同的向量,每一维是一个样本,二阶混合中心矩(协方差)实际就是向量中心化后的向量的内积再除以n-1。二阶混合中心矩为0,说明两个向量正交,不相关。

2.而方差的统计量,即二阶中心矩(实际就是X和他的均值向量的欧氏距离平方再除以n-1)。或者说是X中心化后的向量的二阶原点矩(实际即向量与原点的欧式距离再除以n-1)

posted on 2012-05-04 23:03  NLP新手  阅读(2104)  评论(0编辑  收藏  举报

导航