协方差、样本协方差和协方差矩阵
协方差用于衡量两个变量的总体误差或协同程度。两个总体 $X,Y$ 之间的协方差定义为
$$Cov(X,Y) = E\left [ (X - E(X))(Y - E(Y)) \right ]$$
将这个式子展开就到计算总体协方差的常用公式:
$$Cov(X,Y) = E\left [ (X - E(X))(Y - E(Y)) \right ] = E(XY) - E(X)E(Y)$$
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;
如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果 $X$ 与 $Y$是统计独立的,那么二者之间的协方差就是 $0$。
从上面也可以看出:总体 $X$ 和 $Y$ 的所有可能取值个数必须是一样的,即每一个横坐标,都会对应一个 $X$ 和 $Y$ 的取值。
相关系数定义:
$$\rho_{XY} = \frac{Cov(X,Y)}{\sigma_{X}\sigma_{Y}}$$
相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。举个例子:
协方差是有单位的,比如身高 $X$(单位:厘米)与体重 $Y$(单位:公斤)的协方差 $Cov(X,Y)$ 的单位是:厘米公斤。假如又有一个
随机变量,同学的年龄 $Z$(单位:岁),它和体重的协方差 $Cov(Z,Y)$ 的单位为:岁公斤。因为单位不同,原始的协方差公式便会受
到两个变量变化幅度的影响。
那么到底体重与身高更正相关,还是体重与岁数更正相关?是没有办法直接比较 $Cov(X,Y)$ 和 $Cov(Z,Y)$ 来判断的。
那么为什么要通过除以标准差的方式来剔除变化幅度的影响呢?咱们简单从标准差公式看一下:
$$\sigma_{X} = \sqrt{E\left [ (X- \mu_{X})^{2} \right ]}$$
从公式可以看出,$X - \mu_{X}$ 表示变量值偏离均值的幅度,因为有可能是负数,所以进行平方,求期望是得到偏离均值的平均情况,最
后还需要开方,即回到原来的量纲。所以标准差能够反映随机变量在整体变化过程中偏离均值的幅度。
但总体 $X,Y$ 的分布没办法知道,所以一般用样本协方差来估计总体,参考样本方差的形式可写出样本协方差为
$$cov(X,Y) = \frac{1}{n - 1}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )\left ( Y_{i} - \bar{Y} \right )$$
无偏性证明:
$$E \left [ \frac{1}{n - 1}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )\left ( Y_{i} - \bar{Y} \right ) \right ] = E \left [ \frac{1}{n - 1}\sum_{i = 1}^{n}X_{i}Y_{i} - \frac{n}{n - 1}\bar{X}\bar{Y} \right ] \\
= \frac{n}{n - 1}\left [ E(XY) - \frac{1}{n^{2}} \cdot E \left (\sum_{i=1}^{n}X_{i} \cdot \sum_{j=1}^{n}Y_{j} \right ) \right ] \\
= \frac{n}{n - 1}\left [ E(XY) - \frac{1}{n^{2}} \cdot E \left (\sum_{i=1}^{n}X_{i}Y_{i} + \sum_{i=1}^{n} \sum_{j \neq i}^{n}X_{i}Y_{j} \right ) \right ] \\
= \frac{n}{n - 1}\left [ E(XY) - \frac{1}{n}E(XY) - \frac{n - 1}{n} \cdot E(X)E(Y) \right ] \\
= E(XY) - E(X)E(Y)$$
上面的过程认为当 $i \neq j$ 时,$X_{i}$ 与 $Y_{j}$ 是相互独立的。
证毕
如果我们将样本 $X_{i},i = 1,2,3,...$ 和 $Y_{i},i = 1,2,3,...$ 写成向量形式,即
$$\alpha = \left ( X_{1}, X_{2}, \cdots, X_{n} \right )^{T} \\
\beta = \left ( Y_{1}, Y_{2}, \cdots, Y_{n} \right )^{T}$$
$\bar{\alpha},\bar{\beta}$ 为对应样本的均值向量,即
$$\bar{\alpha} = (\bar{X},\bar{X},\cdots,\bar{X}) \\
\bar{\beta} = (\bar{Y},\bar{Y},\cdots,\bar{Y})$$
则样本协方差可以写为如下形式
$$cov(X,Y) = \frac{1}{n - 1}\sum_{i=1}^{n}\left ( X_{i} - \bar{X} \right )\left ( Y_{i} - \bar{Y} \right ) = \frac{1}{n - 1}(\alpha - \bar{\alpha}) \cdot (\beta - \bar{\beta})$$
协方差矩阵
协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,使用矩阵来组织这些数据。
假设有 $N$ 个总体 $X_{1}, X_{2}, \cdots, X_{N}$,每个总体抽取 $m$ 份样本,给出协方差矩阵的定义
$$\begin{bmatrix}
c_{11} & c_{21} & \cdots & c_{1n}\\
c_{21} & c_{22} & \cdots & c_{2n}\\
\vdots & \vdots & \ddots & \vdots \\
c_{n1} & c_{n2} & \cdots & c_{nn}
\end{bmatrix}$$
其中
$$c_{ij} = cov \left ( X_{i}, X_{j} \right ),\; i,j = 1,2,\cdots,N$$
协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。