先说一下协方差和相关系数

1.协方差

公式:$$ Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)]$$
其中,\(\mu_x\)\(\mu_y\)是随机变量\(X\)\(Y\)的均值,两个随机变量的值对其均值的偏差相乘,然后再求期望。
如果\((X-\mu_x)\)\((Y-\mu_y)\)同号,则乘积为正,异号则乘积为负。那么,协方差的正负责表现出了两个值的运动变化,通俗来说:
X(Y)变大同时Y(X)也变大,说明两个变化时同向变化的,这时候协方差为正(正相关)。
反之,X(Y)变小但是Y(X)变大,两个变化的方向是相反的,这时候协方差为负(负相关)。

参考:知乎回答:如何通俗易懂地解释协方差和相关系数

2.相关系数

如果不同的随机变量他们的波动性(幅度)不同,有的波动很大,有的波动比较平稳,那这个时候,比如比较随机变量X与随机变量Y和Z哪个更相关,即使大家都很相关,但是Y和Z的幅度有很大的区别,cov(X,Y)和cover(X,Z)的值差距就会很大。
因此,在比较随机变量的相关性的时候,协方差的值就能不准确衡量,因为没有“归一化”处理
因此引出 相关系数
对于二维随机变量\((X,Y)\),其各自的方差\(Var(x) = \sigma_X^2, Var(Y) = \sigma_Y^2\),那么:

\[\rho=\frac{\operatorname{Cov}(X, Y)}{\sigma_{X} \sigma_{Y}} \]

3.Gram矩阵

定义:

\[G=A^{T} A=\left[\begin{array}{c}\mathbf{a}_{1}^{T} \\ \mathbf{a}_{2}^{T} \\ \vdots \\ \mathbf{a}_{n}^{T}\end{array}\right]\left[\begin{array}{llll}\mathbf{a}_{1} & \mathbf{a}_{2} & \cdots & \mathbf{a}_{n}\end{array}\right]=\left[\begin{array}{llll}\mathbf{a}_{1}^{T} \mathbf{a}_{1} & \mathbf{a}_{1}^{T} \mathbf{a}_{2} & \cdots & \mathbf{a}_{1}^{T} \mathbf{a}_{n} \\ \mathbf{a}_{2}^{T} \mathbf{a}_{1} & \mathbf{a}_{2}^{T} \mathbf{a}_{2} & \cdots & \mathbf{a}_{2}^{T} \mathbf{a}_{n} \\ \mathbf{a}_{n}^{T} \mathbf{a}_{1} & \mathbf{a}_{n}^{T} \mathbf{a}_{2} & \cdots & \mathbf{a}_{n}^{T} \mathbf{a}_{n}\end{array}\right] \]

由此可见,Gram matrix(简称G矩阵)是对向量\(A\)自身分布特征的一种描述,如果每一维代表一个特征,那么总共就有\(n\)个特征,G矩阵就是这n个特征向量之间的内积组成的矩阵,那么,可以被看做n个特征之间的偏心协方差矩阵(没有减去均值),在一定程度上,其正负性可以判断其特征之间的相关性。哪两个特征同时出现,哪两个特征此消彼长等等...

性质:
G矩阵是半正定矩阵
G的行列式非0时,X是线性无关的(充分必要)(可用来判定X是否线性无关,很重要)