MIT线性代数课程总结与理解-第三部分
MIT线性代数课程总结与理解-第三部分
对称矩阵
关于对称矩阵,这里个人认为需要掌握两个结论:
- n×n对称矩阵存在n个正交的特征向量
- 实对称矩阵的特征值也是实数
所以若 \(A=A^T\),则\(A\)可进行特征值分解为\(A=Q\Lambda Q^T\),\(Q\)为正交矩阵
如果实对称矩阵的特征值为正数,则该矩阵为正定矩阵
正定矩阵满足以下性质:
- 特征值均为正数
- 所有子行列式为正数
- 主元为正数(本条保留疑问,因为主元的值似乎可以任意改变)
本节个人认为掌握这些就够用了,若以后需要其他,再进行补充,包括相似矩阵,若尓当型等
奇异值分解(SVD)
奇异值分解是一种相当重要的分解,也是一种很完美的分解,可对任意形状的矩阵进行分解。
设\(\{v_1,v_2,v_3....v_r\}\)为\(A\)行空间的一组标准正交基,\(\{u_1,u_2,u_3...u_r\}\)为\(A\)的一组列空间向量,有\(Av_x=u_x\),将\(u_x\)规范化有\(Av_x=\sigma _xu_x\),整合有\(Av=u\Sigma\),
这里有个结论,就是我们能够找到\(u\)也为列空间的一组正交基,至于为什么能够找到,暂且不明。于是有\(\Sigma\)为伸缩比例的对角阵,这里
\(A:m×n,v=n×r,u=m×r,\Sigma=r×r\)
为了方便分解,我们在\(v\)中右边填充零空间的一组标准基,\(u\)中右填充左零空间的一组标准基,则\(\Sigma\)相应位置填充零向量。
则有 \(\{v_1,v_2,v_3....v_r,v_{r+1}....v_n\},\{u_1,u_2,u_3....u_r,u_{r+1}....u_m\}\),则有\(AV=U\Sigma\),这里有
\(A:m×n,V:n×n,U=m×m,\Sigma=m×n\)
其中\(V,U\)为正交矩阵,\(\Sigma\)为对角阵,进一步有
\(A=U\Sigma V^T\)
这就是矩阵的奇异值分解。
从分解过程可以看出,\(U,V\)并非唯一的,这也是奇异值分解仅仅指定了形式,而数值并非确定。
那么如何来求解\(U,V\)呢?
这里有
- \(A^TA=V\Sigma ^TU^TU\Sigma V^T=V\Sigma ^2V^T\)
- \(AA^T=U\Sigma V^TV\Sigma ^TU^T=U(\Sigma ^T)^2U^T\)
所以\(V\)是\(A^TA\)的一个特征向量组,\(U\)是\(AA^T\)的一个特征向量组,而特征值为\(\Sigma ^2\),一般而言我们取\(\Sigma\)的正值。
这里需要思考一个问题了,上面其实从两个角度上来说明了\(U,V,\Sigma\)的含义
角度1
\(U=\{u_1,u_2...u_r,u_{r+1}...u_n\},V=\{v_1,v_2...v_r,v_{r+1}...v_m\}\)
\(\{v_1...v_r\}\)为行空间的一组正交向量, \(\{v_r+1...v_n\}\)为零空间的一组正交向量,显然二者是正交的;
\(\{u_1...u_r\}\)为列空间的一组正交向量, \(\{u_r+1...u_m\}\)为左零空间的一组正交向量,显然二者是正交的;
\(\Sigma\)为伸缩因子
角度2
- \(A^TA=V\Sigma ^TU^TU\Sigma V^T=V\Sigma ^2V^T\)
- \(AA^T=U\Sigma V^TV\Sigma ^TU^T=U(\Sigma ^T)^2U^T\)
\(U\)是\(AA^T\)的一个特征向量组,\(V\)是\(A^TA\)的一个特征向量组,\(\Sigma ^2\)为对应特征值矩阵。
两个角度的联系
按照上面的推导过程,\(V\)右部分是\(A\)零空间中任意找一组正交的向量,那么这里的\(V\)又是\(A^TA\)的一个特征向量组,难道特征向量也可以任意吗?
答案是,对,\(V\)的确是\(A^TA\)的特征向量组,但是对于上面所说的\(V\)右边的\(A\)的零空间向量正好对应于\(A^TA\)的特征值为零的特征向量,所以在\(A^TA\)对角化的过程中,对于0特征值所对应的特征向量就是任意选取的一组正交向量。
那么如何保证选取的\(A^TA\)特征值为零的特征向量也是\(A\)的零向量,或者说选取的\(A\)的零空间向量也是\(A^TA\)的特征值为零的特征向量呢?
这里先证一个结论:
\(A^TAx=0\Leftrightarrow Ax=0\Rightarrow A^TA\)与\(A\)的零空间相同\(\Rightarrow A^TA\)与\(A\)的零,行空间相同
充分性:\(A^TAx=0\Rightarrow x^TA^TAx=0\Rightarrow(Ax)^2=0\Rightarrow Ax=0\)
必要性:\(Ax=0\Rightarrow A^TAx=0\)
另外还有易得结论:
方阵的零空间向量都是方阵的特征值为零的特征向量,或者说方阵的特征值为零的特征向量都在方阵的零空间内,双方充要,因为\(Ax=0 \Leftrightarrow Ax=0x\)
由上面可得:
充分性说明了选取的\(A^TA\)特征值为零的特征向量在\(A\)的零空间内
必要性说明了选取的\(A\)的零空间向量是\(A^TA\)的特征值为零的特征向量
另外还有个小问题,\(A^TA\)的特征值不为零的特征向量,为什么一定在\(A\)的行空间内呢?
这就很容易回答了,因为\(A^TA\)的特征值不为零的特征向量在\(A^TA\)的行空间内(行零空间互补),也即是\(A\)的行空间内。
线性变换
首先我们得知道线性变换为何物,
定义\(T\)为一种变换,若对输入向量有
- \(T(\alpha w)=\alpha T(w)\)
- \(T(w+v)=T(w)+T(v)\)
- \(T(\alpha w+\beta v)=\alpha T(w)+\beta T(v)\)(由前二者可得)
则\(T\)称为线性变换。比如旋转,投影就是线性变换。
这里有一个结论了,任意一个线性变换都可以用矩阵来表示,任意一个矩阵都意味着一个线性变换,那么我们就得来了解二者兼得关系了。
由线性变换确定矩阵
要由线性变换确定矩阵,得先给定三个东西:输入空间基,输出空间基,线性变换。
设定输入空间基为\(\{v_1,v_2....v_n\}\),输出空间基为\(\{w_1,w_2....w_m\}\)
则我们可以得到\(T(v_1)=a_1w_1+a_2w_2+...+a_nw_n\)
将该系数作为向量,构成矩阵的一个列向量,依次确定,则构成整个矩阵,该矩阵则为线性变换确定的矩阵。
举个例子,就拿逆时针旋转45度来说,有输入空间基为自然基,输出空间基为自然基,则:
\(T(v_1)=\frac{\sqrt{2}}{2}w_1+\frac{\sqrt{2}}{2}w_2\)
\(T(v_2)=-\frac{\sqrt{2}}{2}w_1+\frac{\sqrt{2}}{2}w_2\)
所以矩阵为
\(\begin{bmatrix}\frac{\sqrt{2}}{2}&-\frac{\sqrt{2}}{2} \\ \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2}\end{bmatrix}\)
问题就来了,为什么能够这样呢?
这是因为,当把输入空间的基作为输入向量时,输出的向量就是输入空间基在输出空间对应的向量,输入空间的向量由基表示,那么找到了输入空间基在输出空间对应的向量,也就可以将输入空间变换到了输出空间。
这里有个提示,关于基的选择,坐标是根据基来确定的,当在进行线性变换时,变换两边的坐标一定是由输入,输出空间的基来确定的,比如,同样上面的例子,我们输入选择自然基,输出空间选择
\(\begin{bmatrix}\frac{\sqrt{2}}{2}\\ \frac{\sqrt{2}}{2}\end{bmatrix}\)\(\begin{bmatrix}- \frac{\sqrt{2}}{2}\\ \frac{\sqrt{2}}{2} \end{bmatrix}\)
作为基,那么
- \(T(v_1)=w_1\)
- \(T(v_2)=w_2\)
所以线性变换确定的矩阵就为
\(\begin{bmatrix}1&0\\ 0& 1\end{bmatrix}\)
由此可见线性变换确定的矩阵是与输入输出基相关的。
由矩阵确定线性变换
理解了线性变换确定矩阵的过程,再看由矩阵确定线性变换就比较容易了,矩阵的每个列向量,代表输入空间的基由输出空间基表示的系数,如果,二者均采用自然基,那么,矩阵就将输入向量变换到列空间中,理解整个空间变换时,可参考B站的线代视频所讲的网格法。
基变换
基变换是指,一个向量从一组基变换到另一个基上时的新坐标,这里其实有个问题,应该说,基本身一般是采用的自然基,所以我们就可以先把原向量变换为自然基,然后再变到新的基上:
\(Wx=Vc\),其中\(W\)为旧基,\(x\)为原坐标,\(V\)为新基,\(c\)为新坐标
特殊地,若\(W\)为自然基,则有\(x=Vc\)。
后记
总算把线代的大部分知识总结完了,其中也漏了不少目前还没用到的知识,等用到时,再加以补充吧。
2017.7.24