线性代数
一、向量的性质
- 设\(n\)维向量\(x=[x_1,x_2,...,x_n]^T\)与\(n\)维向量\(y=[y_1,y_2,...,y_n]^T\),则定义
称作向量内积,即\([x,y]=x^Ty\)(这种表示用的比较多)。
2. 定义 若\(x^Ty=0\)则称向量\(x\)与\(y\)正交,即内积为0的两个向量正交。
3. 定理 若\(n\)维向量\(\alpha_1,\alpha_2,...,\alpha_r\)是一组两两正交的非零向量,则向量组\(\alpha_1,\alpha_2,...,\alpha_r\)线性无关。
证明: 设有\(\lambda_1,\lambda_2,...,\lambda_r\)使得
用\(\alpha_i\)与上式做内积(\([\alpha_i,\alpha_j]=0\quad, i \neq j\))故
而\([\alpha_i,\alpha_i]>0\),故\(\lambda_i=0\),从而向量组\(\alpha_1,\alpha_2,...,\alpha_r\)线性无关。
- 定义 设\(n\)维向量\(e_1,e_2,...,e_r\)是向量空间\(V\)的一组基,如果\(e_1,e_2,...,e_r\)正交,且都是单位矩阵,则称\(e_1,e_2,...,e_r\)是\(V\)的标准正交基。
\(V\)中任一个向量\(\alpha\)可以表示为
用\(e_i^T\)左乘向量\(\alpha\)可以求出\(\lambda_i\),即
- \(Schmidt\)正交化 设\(\alpha_1,\alpha_2,...,\alpha_r\)是空间\(V\)的一组基,可以通过下面方法求\(V\)的一组标准正交基
然后将他们单位化
则\(e_1,e_2,...,e_r\)就是\(V\)的一组标准正交基。
- 定义 如果\(n\)阶矩阵\(A\)满足
那么称\(A\)为正交矩阵,简称正交阵。
设\(A=[\alpha_1,\alpha_2,\alpha_n]\),则\(A^TA=E\)得
这说明方阵\(A\)是正交矩阵的充分必要条件是\(A\)的列向量都是单位向量,且两两正交。
- 定义 设\(P\)是正交矩阵,则线性变换\(y=Px\)是正交变换。
可知\(||y||=\sqrt{y^Ty}=\sqrt{x^TP^TPx}=\sqrt{x^Tx}=||x||\),这说明正交变换不改变向量的长度,只改变向量的方向。
二、特征值分解与奇异值分解
1、特征值与特征向量的定义
定义 设\(A\)是\(n\)阶方阵,如果常数\(\lambda\)和\(n\)维非零向量\(x\)满足
称\(\lambda\)为特征值,\(x\)为特征向量。
特征向量的求法,上式变形为
在复数范围内\(A\)有\(n\)个特征向量。求解出\(\lambda_i\)后,可以根据\((A-\lambda_iE)x=0\)求解出特征向量\(x\).
2、特征值与特征向量的性质
-
设\(n\)阶矩阵\(A=(a_{ij})\)的特征值为\(\lambda_1,\lambda_2,...,\lambda_n\),则
(1) \(\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}=tr(A)\)
(2) \(\lambda_1\lambda_2...\lambda_n=|A|\)
(3) 若\(\lambda\)是\(A\)的特征值,则\(\lambda^2\)是\(A^2\)的特征值;当\(A\)可逆时,\(\frac{1}{\lambda}\)是\(A^{-1}\)的特征值。
(4) \(A\)可逆 \(\quad \Longleftrightarrow \quad\) \(A\)的全部特征值都不为零。 -
定理 设\(\lambda_1,\lambda_2,...,\lambda_m\)是方阵\(A\)的\(m\)个互不相等的特征值,\(p_1,p_2,...,p_m\)依次是其对应的特征向量,则向量组\(p_1,p_2,...,p_n\)线性无关。一句话概括就是:属于不同值特征的向量是线性无关的。(可用数学归纳法证之,略)
3、矩阵相似的概念
定义 设\(A\)和\(B\)都是\(n\)阶方阵,若有可逆矩阵\(P\)使得
则称\(A\)与\(B\)相似,记做\(A \sim B\)
** 定理 ** 若\(n\)阶矩阵\(A\)与\(B\)相似,则\(A\)与\(B\)的特征多项式相同,从而\(A\)与\(B\)的特征值相同。(一句话:相似矩阵具有相同特征值)
证明:
定义 对\(n\)阶矩阵\(A\),寻求相似变换矩阵\(P\)使得\(P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n)\),称把矩阵\(A\)对角化。
不妨设我们已经找到可逆矩阵\(P\),使得\(P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n)\),将\(P\)表示称列向量的形式设 \(\; P=(p_1,p_2,...,p_n)\),则
于是有
这说明\(p_i\)就是\(A\)的特征向量\(\lambda_i\)就是\(A\)的特征值,\(A\)恰好有\(n\)个特征值,并可以求出\(n\)个特征向量,这\(n\)个特征向量即可构成矩阵\(P\)。
定理 \(A\)能对角化的充分必要条件是\(A\)有\(n\)个线性无关的特征向量。它的充分不必要条件是\(A\)有\(n\)个互不相等的特征值。
4、矩阵特征值分解
特征值与特征向量的几何意义 矩阵的乘法对应一个线性变换,是把任意一个向量变成另一个方向或者长度不同的新向量。在这个变换中,原向量主要发生旋转、伸缩变化。所谓特征向量其实就是在该矩阵的作用下,不对该向量产生旋转效果,只对他们做伸缩变换,伸缩比例就是特征值的大小。
矩阵特征值分解就是将一个矩阵分解为
其中,\(\Lambda\) 为由\(A\)的特征值组成的对角矩阵,\(P\)为相应的特征向量组成的矩阵。特征值是从大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化的方向(从主要变化到次要变化的排列)。
也就是说,矩阵\(A\)的信息可以由其特征值与特征向量表示,矩阵对应的变换有很多变换方向,我们通过特征值分解得到前\(N\)个特征向量,那么就对应这个矩阵主要的变换方向,可以利用这前\(N\)个变化方向来近似表示这个矩阵的变换。总结一下就是,特征值表示这个特征有多重要,而特征向量表示这个特征是什么。它的局限性在于,变换的矩阵必须是方阵。
5、矩阵奇异值分解
特征值分解是一个提取矩阵特征很不错的方法,但是它只针对方阵而言,在现实世界中,我们看到的大部分矩阵都不是方阵,那么如何提取一个\(m \times n\)矩阵的特征呢?奇异值分解就是来干这个事情的,奇异值分解能适用于任意矩阵的一种分解方法。
设\(A\)是一个\(m \times n\)的矩阵,则\(A\)的分解形式为
分解得到的矩阵具有特殊的结构。\(U\)是一个\(m \times m\)正交矩阵(左奇异向量),\(D\)是一个$m \times n \(对角矩阵(奇异值),\)V\(是一个\)n \times n$的正交矩阵(右奇异向量)。
那么奇异值如何计算呢?将\(A^T\)乘以\(A\)得到一个方程
通过上面方法求出\(A^TA\)的特征值\(\lambda_i\)和特征向量\(v_i\),于是就可以得到奇异值为
并且\(A\)的左奇异向量就是\(AA^T\)的特征向量,\(A\)的右奇异向量就是\(A^TA\)的特征向量。\(A\)的非零奇异值就是\(AA^T\)的特征值的平方根,\(A^TA\)也是一样的。
奇异值\(\sigma\)和特征值类似,在矩阵\(D\)中也是从小到大排列的,而\(\sigma\)的减少特别快,在很多情况下,前\(10\%\)甚至前\(1\%\)的奇异值就占了全部奇异值和的\(99\%\)以上。也就是说我们可以用前\(r\)(\(r\)远小于\(m,n\))个奇异值来近似代替和描述矩阵,即为部分奇异值的分解
如果想要压缩空间来表示原矩阵\(A\),可以存下这里的三个矩阵:\(U、D、V\)即可。
关于奇异值的计算是一个难题,是一个\(O(n^3)\)的算法,可以采用并行方法求解,在大规模矩阵求解中,一般使用迭代方法。
三、矩阵的迹算子
设矩阵\(A\)为\(m \times n\)的矩阵,则\(A\)的迹\(Tr(A)\)定义为
迹算子具有很好的性质,在很多情况下很有用。例如矩阵\(A\)的\(F\)范数可以表示为
并且\(A\)的迹与\(A^T\)的迹相同,即为
并且迹的运算满足轮换规则
更一般的