概率笔记 - 协方差

今天看一下什么是协方差,动因是看一篇论文,最后一个关键点是联合贝叶斯(Joint Bayesian),基于高斯分布、协方差这些知识点,深感概率这个小坑非填不可。

有很多不错的博客,很多前人已经修桥铺路了,非常感激有他们的工作。其中一篇的博主,同样是在学习一种机器学习方法中遇到了协方差这个坑,也就是主成分分析(PCA),其中有一步是计算样本各维度的。我这里只是对它们的工作做进一步的编辑和整理而已,不过仍然有很少一部分是自己的想法和看法,写作本身带有的思考也足够有趣。

 

 

 

 

首先,什么是 协方差

对于 协方差 的定义,一般有 两 种情况:

  • 随机变量 (如上一篇笔记里所描述的,是事件的函数)联合分布的一个参数(期望、方差同理);
  • 样本 的一个统计量,可作为多个随机变量之间的联合分布的参数的一个估计

 

 

先从 随机变量联合分布参数 这个角度来看吧。

  • 以 两个随机变量$X, Y$为例,协方差是这两个随机变量联合分布的 线性相关程度 (正值越大,越相关,0 表示线性无关) 的一种度量。
  • 具体的数学定义如下。其中,$m$是所有随机变量的取值个数,$dX, dY$是原来的随机变量$X, Y$同时减去各自的均值(数学期望)得到的新的随机变量。

$$ Covariance(X, Y) = Expectation((X - Expectation(X)) (Y - Expectation(Y))) = Expectation(dX dY) = Expectation(\sum_{i=1}^m(dX_i dY_i)) = dX_1 dY_1 + dX_2 dY_2 + ... ... $$

  • 这里引出另外一个概念,就是方差
    • 它本来用来衡量随机变量在分布上 脱离均值的距离(空间中两个点的距离,也就是二范数的定义公式和方差的公式完全相同)。
    • 但是,它其实也可以定义为两个分布相同的随机变量之间的 线性相关程度

$$ Variance(X) = Covariance(X, X) = Expectation(\sum_{i=1}^m(dX_i^2)) = dX_1^2 + dX_2^2 + ... ... $$

  • 有了 协方差 和 方差 的概念以后,我们可以提出下一个问题了。
    • $Covariance(X, Y)$ 与 $Covarianve(X, Z)$ 可以比较大小吗,也就是说这两个 协方差 的大小比较,能够用来 衡量 随机变量$X$是与$Y$的分布更相似呢,还是与 Z 的 分布更相似 呢,可以实现这个目的吗?
    • 答案就是,方差正好可以衡量随机变量在分布上远离均值的距离(那些$dX$)的 平均(那些$dX$的二范数),通过将所有的偏离$dX$除以这个 “平均偏离” ,就达到了归一化的作用,将随机变量的偏离变量$dX$做归一化以后,那么他们之间就有了可比性,事实上,经过这一步,两个分布相同的变量,它们之间的协方差将被定到 $1$ 这个值,这也就是归一这个名字的意义。这样,协方差的值域从正负无穷之间,变成了正负一之间,$0$ 则依然表示线性无关。同时,它也有了一个新的名字,叫 相关系数

$$ CorrelationCoefficient(X, Y) = Expectation \left( \frac{dX}{StandardDeviation(X)} \frac{dY}{StandardDeviation(Y)} \right) = Expectation \left( \frac{X-Expectation(X)}{StandardDeviation(X)} \frac{Y-Expectation(Y)}{StandardDeviation(Y)} \right) = \frac{Covariance(X, Y)}{StandardDeviation(X) StandardDeviation(Y)} $$

  • 有了 协方差 以及 协方差比较 的概念以后,很容易就能写出 协方差矩阵 的定义,前者是 两 个随机变量之间的 线性相关性,那么,如果有$n$个随机变量,它们 两两之间 的 线性相关性 的值就构成了协方差阵。可以预见,这个矩阵在对角线上的值则是这$n$个随机变量的方差。

$$\Sigma
=\begin{bmatrix}
    \operatorname{cov}(X_1, X_1) &
    \operatorname{cov}(X_1, X_2) &
    \cdots &
    \operatorname{cov}(X_1, X_n) \\
    \operatorname{cov}(X_2, X_1) &
    \operatorname{cov}(X_2, X_2) &
    \cdots &
    \operatorname{cov}(X_2, X_n) \\
    \vdots &
    \vdots &
    \ddots &
    \vdots \\
    \operatorname{cov}(X_n, X_1) &
    \operatorname{cov}(X_n, X_2) &
    \cdots &
    \operatorname{cov}(X_n, X_n)
\end{bmatrix}
=\operatorname{E}\big[(\textbf X-\operatorname{E}[\textbf X]\big)(\textbf X-\operatorname{E}[\textbf X])^T]
=\begin{bmatrix}
    \operatorname{E}\big[(X_1-\operatorname{E}[X_1])(X_1-\operatorname{E}[X_1])\big] &                                           \operatorname{E}\big[(X_1-\operatorname{E}[X_1])(X_2-\operatorname{E}[X_2])\big] &
    \cdots &
    \operatorname{E}\big[(X_1-\operatorname{E}[X_1])(X_n-\operatorname{E}[X_n])\big] \\
    \operatorname{E}\big[(X_2-\operatorname{E}[X_2])(X_1-\operatorname{E}[X_1])\big] &
    \operatorname{E}\big[(X_2-\operatorname{E}[X_2])(X_2-\operatorname{E}[X_2])\big] &
    \cdots &
    \operatorname{E}\big[(X_2-\operatorname{E}[X_2])(X_n-\operatorname{E}[X_n])\big] \\
    \vdots &
    \vdots &
    \ddots &
    \vdots \\
    \operatorname{E}\big[(X_n-\operatorname{E}[X_n])(X_1-\operatorname{E}[X_1])\big] &
    \operatorname{E}\big[(X_n-\operatorname{E}[X_n])(X_2-\operatorname{E}[X_2])\big] &
    \cdots &
    \operatorname{E}\big[(X_n-\operatorname{E}[X_n])(X_n-\operatorname{E}[X_n])\big] &
\end{bmatrix}$$

  • 该 协方差矩阵 中的 元素 则如下所示。

$$\Sigma_{ij}=\operatorname{cov}(X_i,X_j)=\operatorname{E}\big[(X_i-\operatorname{E}[X_i])(X_j-\operatorname{E}[X_j])\big]$$

  • 下面的例子中,$n$取了$3$,该公式为相关系数矩阵。

$$ CorrelationCoefficient Matrix(X, Y, Z)
= \left[ \begin{matrix}    CorrelationCoefficient(X, X) & CorrelationCoefficient(X, Y) & CorrelationCoefficient(X, Z) \\
   CorrelationCoefficient(Y, X) & CorrelationCoefficient(Y, Y) & CorrelationCoefficient(Y, Z) \\
    CorrelationCoefficient(Z, X) & CorrelationCoefficient(Z, Y) & CorrelationCoefficient(Z, Z) \\  \end{matrix}\right] $$

 

然后,从 样本 对联合分布参数的估计 这个角度来看。

首先,通过数学推导,证明为什么 样本方差$S^2$ 要除以的不是$n$,而是$n-1$。然后,感性地理解一下,为什么说这个定义才是对 总体方差$\sigma^2$ 的无偏估计。这里的$n$为 样本的数量,而$\overline{X}$为 样本均值。

$$ Expectation \left( \frac{1}{n} \sum_{i=1}^n (x_i - \overline{X})^2 \right) = Expectation \left( \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 \right) - Expectation \left( ( \overline{X} - \mu)^2 \right)$$

 

附 1 协方差与协方差矩阵 协方差与协方差矩阵

附 2 一些距离的测算方法 常见范数的其他名字史:曼哈顿距离,欧几里得距离,切比雪夫距离

附 3 常见的范数有什么区别 q 范数在 0 范数 和 无穷范数之间的变化规律

附 4 彻底理解样本方差为何除以n-1 样本方差不是(总体)方差

附 5 试试LaTeX插入数学公式 LaTeX 数学公式

 

posted @ 2018-10-06 11:43  joel-q  阅读(118)  评论(0编辑  收藏  举报