SVD的完整推导过程
(一)前言
老生常谈,现在很多写博客的人根本就不管自己抄过来的对不对,有些甚至连转载出处都不标,错误逐渐传播,图片通通copy,影响极其恶劣,令人作呕。正如现在要找一篇数学上证明SVD的文章都很难找到,全都是给你直接讲“直观理解”和所谓的“内涵”,搞来搞去就是复制黏贴那些已经有过的东西,转载的人可能根本连这些自己发的都还搞不懂,滑天下之大稽!
(二)推导
- 定理:设$X_{n×p},rank(X)=r$,且$\lambda_1 \geq ... \geq \lambda_r$为$X^TX$的非零特征值,记$\Lambda^{\frac{1}{2}}=diag(\lambda_1^{\frac{1}{2}},...,\lambda_r^{\frac{1}{2}})$,则存在正交阵$P_{p×p},Q_{n×n}$使得$X=Q \left[ \begin{matrix} \Lambda^{\frac{1}{2}} & \mathbf{0}\\ \mathbf{0}& \mathbf{0} \end{matrix}\right]P^T$,其中$P$的列向量组为与$X^TX$的$p$个特征值$\lambda_1,...,\lambda_r,0,...,0$对应的特征向量组,$Q$的列向量组为与$XX^T$的$n$个特征值$\lambda_1,...,\lambda_r,0,...,0$对应的特征向量组
- 证明:
由$X^TX$实对称,故$\exists$正交阵$P_{p×p}$使$P^TX^TXP= diag(\lambda_1,...,\lambda_r,0,...,0)$
令$P=(\alpha_1,...,\alpha_r,\alpha_{r+1},...,\alpha_{p})$,此时$\left \{ \begin{array}{cc} X^TX \alpha_i = \lambda_i\alpha_i & i=1,...,r\\ X^TX\alpha_i=\overrightarrow{0}&i=r+1,...,p \end{array} \right. $
若要找一个$Q=(\beta_1,...,\beta_n)$满足条件$\Leftrightarrow$找满足条件的$Q$,使得$Q\left[ \begin{matrix} \Lambda^{\frac{1}{2}} & \mathbf{0}\\ \mathbf{0}& \mathbf{0} \end{matrix}\right]=XP$
将上式展开化简得$\beta_i=\frac{X\alpha_i}{\sqrt{\lambda_i}}$ $i=1,...,r$,此时就转化为考察如下三个问题:
① 这些$\beta_i$是否分别对应了$XX^T$的特征值$\lambda_i$
② 它们是否相互两两正交
③ 是否能找到其余符合条件的$n-r$个特征向量与$\beta_1,...,\beta_r$一起构成正交阵$Q$
问题①:$XX^T\beta_i = \frac{XX^TX\alpha_i}{\sqrt{\lambda_i}}=\frac{X(\lambda_i\alpha_i)}{\sqrt{\lambda_i}}=\sqrt{\lambda_i}X\alpha_i=\lambda_i\beta_i$ $i=1,...,r$
问题②:$\forall i,j =1,...,r$有$\beta_i^T\beta_j=\frac{\alpha_i^TX^TX\alpha_j}{\sqrt{\lambda_i\lambda_j}}=\frac{\alpha_i^T(\lambda_j\alpha_j)}{\sqrt{\lambda_i\lambda_j}}=\sqrt{\frac{\lambda_j}{\lambda_i}}\alpha_i^T\alpha_j=\left\{ \begin{array}{cc}1&i=j \\0 &i\ne j\end{array} \right.$
问题③:只要取$XX^T$零空间的规范正交基$\beta_{r+1},...,\beta_{n}$就可以满足条件
综上,奇异值分解$Singular$ $Value$ $Decomposition$定理成立
参考资料:
- 姚强. 高等代数期末复习卷的一道补充习题, 2018