MIT线性代数课程 总结与理解-第二部分
MIT线性代数课程总结与理解-第二部分
概述
本部分主要介绍了投影和特征值,以及二者的应用。
投影
先看二维简单例子:
设\(a,b\)向量为二维空间上的两个非零向量,\(xb\)为\(a\)在\(b\)上的投影,则误差\(e=a-xb\),又\(b^Te=0\),则\(b^T(a-xb)=0\),即\(b^Ta-xb^Tb=0\),\(b^Ta\)与\(b^Tb\)均为常数,故\(x=\frac {b^Ta} {b^Tb}\)
对投影矩阵\(P\),有\(Pa=bx\),得\(P=\frac {bb^T} {b^Tb}\)
其实,这是\(a\)向量在以\(b\)为基所构成的空间上的投影,那么\(a\)在以基为\({b_1,b_2,...,b_n}\)的空间上的投影又如何呢?
首先明确一点,投影是啥,个人认为,对于\(a\)向量,若在空间A中的向量\(b\),有\(e=a-b\),满足e正交于该空间,则\(b\)为a在该空间上的投影,且|e|最小。
证明:设c是A空间中不等于\(b\)的任意向量,\(e=a-b,e_2=a-c,m=b-c,则e_2=e+m\),其中m在空间A中,故\(e·m=0\),所以\(|e_2|^{2}=|e|^{2}+|m|^{2},故|e_2|>|e|\),也就是说,\(a\)与\(b\)的欧氏距离是\(a\)与空间\(A\)中所有向量欧氏距离中最短的。
继续解决上面问题,设\(A={b_1,b_2,...,b_n}\),则A列空间中向量为\(Ax\),令\(e=Ax-a\),若\(Ax\)为投影向量,则\(A^Te=0\),即\(A^T(Ax-a)=0\),故\(A^TAx=A^Ta\)。
这里停一下,有个结论,若A列向量组线性无关,则\(A^TA\)是可逆的,因为,对于\(A^TAx=0\)可得\((Ax)^T(Ax)=0\),所以\(Ax=0\),故\(x\)只有零解,所以\(A^TA\)是可逆的。
所以\(x=(A^TA)^{-1}A^Ta\),投影矩阵\(P=A(A^TA)^{-1}A^T\)。
最小二乘法
最小二乘法是投影的一个典型应用,背景是这样的:
\(Ax=b,A\)矩阵有\(m>>n\),且列向量组线性无关,一般而言,\(x\)是无解的,我们需要找一个\(x'\),使得\(Ax'=b’\),有\(|b-b'|\)最小,其实也就是\(b,b'\)的距离最近,怎么做呢?
显然,\(b'\)是\(b\)在\(Ax\)上的投影,故\(b'=PA\),\(x=(A^TA)^{-1}A^Tb\)
用这种方法来处理拟合问题,比如用\(ax^2+bx+c=y\)来拟合\(\{(x_1,y_1),(x_2,y_2)...(x_n,y_n)\}\),将数据带入方程中,有\(X[a \ b \ c]^T=y\),仍表示成\(Ax=b\),则\(A\)列空间任一向量表示一组\([a \ b \ c]\)所确定的\(b'\)向量,当\(b'\)为\(b\)在\(Ax\)上投影时,则有\(|e|\)最小,\(e\)的每一个分量,表示在该维度上\(b'\)与\(b\)的差值。
正交矩阵
正交性是一个很重要的性质,首先说一下标准正交基,所谓标准正交基就是指一个基,其满足基中每一个向量模均为1,且两两正交。设其构成矩阵\(A\),则\(A^TA=I\)。若A为方阵,则此时A为正交矩阵,我们用Q表示。正交矩阵满足\(Q^TQ=I\),所以\(Q^{-1}=Q^T\)。
特征值与特征向量
对于特征值和特征向量,我们先给定义:若对于方阵\(A\)存在不为零向量的\(x\),使得\(Ax=\lambda x\),则称\(x\)为特征向量,\(\lambda\)为特征值。
先看一下求解特征值的方法:\((A-\lambda I)x=0\),\(x\)有非零解,即是\((A-\lambda I)\)是奇异的,故\(|A-\lambda I|\)=0,由此解出\(\lambda\)值和\(x\)值。
方程解有多种情况,特征值可能是实数、复数,也有可能是重根,线性无关的特征向量数量可能与矩阵阶数相同,也可能比其少。对于大部分而言,线性无关的特征向量数是与矩阵阶数相同的,对于其他的,称为退化矩阵,这里略过。
对角化
在有了特征值的概念之后,我们可以利用特征值做这样一个事情:
\(A\)为n阶矩阵,将\(A\)的n个线性无关特征向量构成矩阵\(S\),则\(AS=S\Lambda\),其中\(\Lambda\)为特征向量所对应的特征值所构成的对角阵。
简单验证可以很容易发现该式是成立的,由于\(S\)为方阵,且列向量是线性无关的,所以\(S\)可逆。于是这个等式,可以有两种解读方式:
-
\(\Lambda =S^{-1}AS\):可以看成这是对\(A\)的一种操作,能使其成为对角矩阵,故该过程称为矩阵的对角化。
-
\(A=S\Lambda S^{-1}\):可以看成这是对\(A\)的一种分解,使其能让这就意味着我们可以求解矩阵的幂:\(A^{n}=S\Lambda ^{n}S^{-1}\)。
对角化的应用
PCA其实就是对角化的一个应用,简要记下:
特征向量矩阵\(Y\)为\(m*n\),一般而言\(n>>m\),先将\(Y\)的每个维度上的值减去该维度上的均值,得到\(A\),则协方差矩阵\(R=AA^{T}\),协方差矩阵上的对角线上是每维的方差,其余部分为所在两维上的数据的协方差。
我们希望找到一个正交基Q,使得\(Y\)中的列向量变换到该基上时,得到的新特征向量矩阵的协方差矩阵是对角矩阵,为啥呢?
因为协方差反映出了变量之间的相关性,我们希望变换到基Q上时,各维度间相互独立,这就好比,在自然基上的一条直线(与x,y不重合),那么直线上的点的两个维度是相关非常密切的,而当我们选择的新基的一个维度就是该直线的方向,那么第二个维度就完全为0,也就与前一个维度相互独立了。
继续推导,基变换一下,在Q上的坐标为
\(M=Q^TA\),
\(R_2=MM^T\),
\(R_2=Q^TAA^TQ=Q^TRQ\)
所以\(Q^T\)其实就是R的特征向量构成的正交矩阵。
矩阵幂的应用
典型应用之解差分方程:
已知\(u_0\),由\(u_{k+1}=Au_{k}\)得\(u_n=A^nu_0\),其中\(A=S\Lambda S^{-1}\),
故\(A=S\Lambda ^nS^{-1}\),又\(u_0=Sc\),所以\(u_n=S(\Lambda ^nc)=\lambda_1 ^nc_1x_1+\lambda_2 ^nc_2x_2+...\)
其中\(x_1,\lambda_1\)为特征向量和特征值。
差分方程是一工具性应用,当解决具体问题时,可构造差分方程,然后求解。