机器学习数学基础(三)

特征值分解与特征向量

  • 特征值分解可以得到特征值与特征向量;
  • 特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么。

如果向量 \(\vec{v}\) 是方阵 \(A\) 的特征向量,那么有:

\[A\nu = \lambda \nu \]

\(\lambda\)为特征向量\(\vec{v}\)对应的特征值。特征值分解是将一个矩阵分解为如下形式:

\[A=Q\sum Q^{-1} \]

其中,\(Q\) 是这个矩阵 \(A\) 的特征向量组成的矩阵,\(\sum\) 是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵 \(A\) 的信息可以由其特征值和特征向量表示。

奇异值与特征值的关系

将矩阵 \(A\) 的转置乘以 \(A\) ,并对 \(AA^T\) 求特征值,有如下形式:

\[(A^TA)V = \lambda V \]

这里\(V\)就是上面的右奇异向量,另外还有:

\[\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}A\mu_i \]

这里的 \(\sigma\) 就是奇异值\(u\) 就是上面说的左奇异向量。奇异值 \(\sigma\) 跟特征值类似,在矩阵 \(\sum\) 中也是从大到小排列。

\(\sigma\) 的减少特别的快,在很多情况下,前 \(10\%\) 甚至 \(1\%\) 的奇异值的和就占了全部的奇异值之和的 \(99\%\) 以上了。也就是说,我们也可以用前 \(r\)\(r\) 远小于 \(m、n\) )个的奇异值来近似描述矩阵,即部分奇异值分解:

\[A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T \]

右边的三个矩阵相乘的结果将会是一个接近于 \(A\) 的矩阵,在这儿,\(r\) 越接近于 \(n\) ,则相乘的结果越接近于 \(A\)

posted on 2019-08-16 11:38  solvit  阅读(239)  评论(0编辑  收藏  举报

导航