方差、协方差与相关系数

1. 方差

在统计学中,对单个随机变量的描述有均值和方差。随机变量Xn个观测样本:xi,i=1,2,...,n,则均值(mean)为:

(1)x¯=1ni=1nxi

又称随机变量X的期望(expectation,E):

(2)E(X)=i=1n1nxi

方差为(variance,var):

(3)var(X)=1n1i=1n(xix¯)2

2. 协方差

2.1 协方差的定义

方差描述单个随机变量的离散程度;当存在多个随机变量(如XY)时,需要引入协方差(covariance,cov):

(4)cov(X,Y)=1n1i=1n(xix¯)(yiy¯)

可以看到,方差实际上是协方差的特殊情况,即随机变量X和自己的协方差:

(5)var(X)=cov(X,X)=1n1i=1n(xix¯)(xix¯)

方差不可能是负值,而协方差可以是负值。

2.2 协方差的意义

协方差可以表示2个随机变量XY的相关性。式(4)可以写成:

(6)cov(X,Y)=E[(XEX)(YEY)]


图中展示了随机变量XY的散点图。根据EXEY,可将图分为4个部分:

  • 第一象限:X>EX,Y>EY,此时(XEX)(YEY)>0
  • 第二象限:X<EX,Y>EY,此时(XEX)(YEY)<0
  • 第三象限:X<EX,Y<EY,此时(XEX)(YEY)>0
  • 第四象限:X>EX,Y<EY,此时(XEX)(YEY)<0

当点处于一、三象限时,XY正相关;当点处于二、四象限时,XY负相关。

协方差的几何意义是上图中红色矩形和蓝色矩形面积之差。可以看到红色部分面积占优,协方差是一个正值;而图中的散点显示XY呈正相关,因此:

  • cov(X,Y)>0,表示XY正相关
  • cov(X,Y)<0,表示XY负相关
  • cov(X,Y)=0,表示XY不相关

3. 相关系数

协方差是有单位的。因此如果有3个随机变量X,Y,Z,如果计算出了cov(X,Y)cov(X,Z),由于量纲的关系,无法根据协方差的大小来判断XY更相关,还是和Z更相关。将协方差除以标准差进行标准化,此时单位已经被约掉了,就是相关系数:

(7)ρ(X,Y)=cov(X,Y)var(X)var(Y)

(8)ρ(X,Z)=cov(X,Z)var(X)var(Z)

相关系数的取值范围是[1,1]。比较ρ(X,Y)ρ(X,Z)的大小,可以判断XY还是Z更相关。

4. 协方差矩阵

在很多时候,样本有多个维度,此时需要考虑多个随机变量之间的关系。有n个样本x1,x2,...,xn;每个样本有k个维度,构成一个多维随机变量X=(X1,X2,...,Xk)T。将这k个维度两两计算协方差,可以得到一个k×k的矩阵:

(9)Σ=E[(XEX)(XEX)T]=[cov(X1,X1)cov(X1,X2)cov(X1,Xk)cov(X2,X1)cov(X2,X2)cov(X2,Xk)cov(Xk,X1)cov(Xk,X1)cov(Xk,Xk)]

Σ是即为方差-协方差矩阵,它是一个对称半正定矩阵。其中第m维与第l维的协方差等于:

(10)cov(Xm,Xl)=1n1i=1n(xm,ix¯m)(xl,ix¯l)

许多统计应用程序都在统计模型中为参数估计量计算方差-协方差矩阵,它通常用于计算估计量或估计量的函数的标准误(RSE)。

posted @   色彩漫游  阅读(25)  评论(0编辑  收藏  举报
(评论功能已被禁用)
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示