机器学习数学基础（三）

特征值分解与特征向量
奇异值与特征值的关系

特征值分解与特征向量

特征值分解可以得到特征值与特征向量；
特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么。

如果向量 \(\vec{v}\) 是方阵 \(A\) 的特征向量，那么有：

\[A\nu = \lambda \nu \]

\(\lambda\)为特征向量\(\vec{v}\)对应的特征值。特征值分解是将一个矩阵分解为如下形式：

\[A=Q\sum Q^{-1} \]

其中，\(Q\) 是这个矩阵 \(A\) 的特征向量组成的矩阵，\(\sum\) 是一个对角矩阵，每一个对角线元素就是一个特征值，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。也就是说矩阵 \(A\) 的信息可以由其特征值和特征向量表示。

奇异值与特征值的关系

将矩阵 \(A\) 的转置乘以 \(A\) ，并对 \(AA^T\) 求特征值，有如下形式：

\[(A^TA)V = \lambda V \]

这里\(V\)就是上面的右奇异向量，另外还有：

\[\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}A\mu_i \]

这里的 \(\sigma\) 就是奇异值，\(u\) 就是上面说的左奇异向量。奇异值 \(\sigma\) 跟特征值类似，在矩阵 \(\sum\) 中也是从大到小排列。

\(\sigma\) 的减少特别的快，在很多情况下，前 \(10\%\) 甚至 \(1\%\) 的奇异值的和就占了全部的奇异值之和的 \(99\%\) 以上了。也就是说，我们也可以用前 \(r\)（ \(r\) 远小于 \(m、n\) ）个的奇异值来近似描述矩阵，即部分奇异值分解：

\[A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T \]

右边的三个矩阵相乘的结果将会是一个接近于 \(A\) 的矩阵，在这儿，\(r\) 越接近于 \(n\) ，则相乘的结果越接近于 \(A\) 。

posted on 2019-08-16 11:38 solvit 阅读(239) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部