1. 方差
在统计学中,对单个随机变量的描述有均值和方差。随机变量X有n个观测样本:xi,i=1,2,...,n,则均值(mean)为:
¯x=1nn∑i=1xi(1)
又称随机变量X的期望(expectation,E):
E(X)=n∑i=11nxi(2)
方差为(variance,var):
var(X)=1n−1n∑i=1(xi−¯x)2(3)
2. 协方差
2.1 协方差的定义
方差描述单个随机变量的离散程度;当存在多个随机变量(如X、Y)时,需要引入协方差(covariance,cov):
cov(X,Y)=1n−1n∑i=1(xi−¯x)(yi−¯y)(4)
可以看到,方差实际上是协方差的特殊情况,即随机变量X和自己的协方差:
var(X)=cov(X,X)=1n−1n∑i=1(xi−¯x)(xi−¯x)(5)
方差不可能是负值,而协方差可以是负值。
2.2 协方差的意义
协方差可以表示2个随机变量X和Y的相关性。式(4)可以写成:
cov(X,Y)=E[(X−EX)(Y−EY)](6)

图中展示了随机变量X和Y的散点图。根据EX和EY,可将图分为4个部分:
- 第一象限:X>EX,Y>EY,此时(X−EX)(Y−EY)>0
- 第二象限:X<EX,Y>EY,此时(X−EX)(Y−EY)<0
- 第三象限:X<EX,Y<EY,此时(X−EX)(Y−EY)>0
- 第四象限:X>EX,Y<EY,此时(X−EX)(Y−EY)<0
当点处于一、三象限时,X和Y正相关;当点处于二、四象限时,X和Y负相关。

协方差的几何意义是上图中红色矩形和蓝色矩形面积之差。可以看到红色部分面积占优,协方差是一个正值;而图中的散点显示X和Y呈正相关,因此:
- cov(X,Y)>0,表示X和Y正相关
- cov(X,Y)<0,表示X和Y负相关
- cov(X,Y)=0,表示X和Y不相关
3. 相关系数
协方差是有单位的。因此如果有3个随机变量X,Y,Z,如果计算出了cov(X,Y)和cov(X,Z),由于量纲的关系,无法根据协方差的大小来判断X是Y更相关,还是和Z更相关。将协方差除以标准差进行标准化,此时单位已经被约掉了,就是相关系数:
ρ(X,Y)=cov(X,Y)√var(X)⋅var(Y)(7)
ρ(X,Z)=cov(X,Z)√var(X)⋅var(Z)(8)
相关系数的取值范围是[−1,1]。比较ρ(X,Y)和ρ(X,Z)的大小,可以判断X是Y还是Z更相关。
4. 协方差矩阵
在很多时候,样本有多个维度,此时需要考虑多个随机变量之间的关系。有n个样本x1,x2,...,xn;每个样本有k个维度,构成一个多维随机变量X=(X1,X2,...,Xk)T。将这k个维度两两计算协方差,可以得到一个k×k的矩阵:
Σ=E[(X−EX)(X−EX)T]=⎡⎢
⎢
⎢
⎢
⎢⎣cov(X1,X1)cov(X1,X2)⋯cov(X1,Xk)cov(X2,X1)cov(X2,X2)⋯cov(X2,Xk)⋮⋮⋱⋮cov(Xk,X1)cov(Xk,X1)⋯cov(Xk,Xk)⎤⎥
⎥
⎥
⎥
⎥⎦(9)
Σ是即为方差-协方差矩阵,它是一个对称半正定矩阵。其中第m维与第l维的协方差等于:
cov(Xm,Xl)=1n−1n∑i=1(xm,i−¯xm)(xl,i−¯xl)(10)
许多统计应用程序都在统计模型中为参数估计量计算方差-协方差矩阵,它通常用于计算估计量或估计量的函数的标准误(RSE)。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通