线性代数

一、向量的性质

  1.   设\(n\)维向量\(x=[x_1,x_2,...,x_n]^T\)\(n\)维向量\(y=[y_1,y_2,...,y_n]^T\),则定义

\[[x,y]=x_1y_1+x_2y_2+...+x_ny_n \]

称作向量内积,即\([x,y]=x^Ty\)(这种表示用的比较多)。
2.   定义   若\(x^Ty=0\)则称向量\(x\)\(y\)正交,即内积为0的两个向量正交。
3.   定理   若\(n\)维向量\(\alpha_1,\alpha_2,...,\alpha_r\)是一组两两正交的非零向量,则向量组\(\alpha_1,\alpha_2,...,\alpha_r\)线性无关。

证明: 设有\(\lambda_1,\lambda_2,...,\lambda_r\)使得

\[\lambda_1\alpha_1+\lambda_2\alpha_2+...+\lambda_r\alpha_r=0 \]

\(\alpha_i\)与上式做内积(\([\alpha_i,\alpha_j]=0\quad, i \neq j\))故

\[\lambda_i[\alpha_i,\alpha_i]=0 \]

\([\alpha_i,\alpha_i]>0\),故\(\lambda_i=0\),从而向量组\(\alpha_1,\alpha_2,...,\alpha_r\)线性无关。

  1. 定义   设\(n\)维向量\(e_1,e_2,...,e_r\)是向量空间\(V\)的一组基,如果\(e_1,e_2,...,e_r\)正交,且都是单位矩阵,则称\(e_1,e_2,...,e_r\)\(V\)的标准正交基。

\(V\)中任一个向量\(\alpha\)可以表示为

\[\alpha=\lambda_1e_1+\lambda_2e_2+...+\lambda_re_r \]

\(e_i^T\)左乘向量\(\alpha\)可以求出\(\lambda_i\),即

\[e_i^T\alpha=\lambda_ie_i^Te_i=\lambda_i \quad \Longrightarrow \quad \lambda_i=[e_i,\alpha] \]

  1. \(Schmidt\)正交化  设\(\alpha_1,\alpha_2,...,\alpha_r\)是空间\(V\)的一组基,可以通过下面方法求\(V\)的一组标准正交基

\[b_1=\alpha_1 \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \]

\[b_2=\alpha_2-\frac{[b_1,\alpha_2]}{[b_1,b_1]}b_1\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \]

\[............\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \]

\[b_r=\alpha_r-\frac{[b_1,a_r]}{[b_1,b_1]}b_1-\frac{[b_2,a_r]}{[b_2,b_2]}b_2-...-\frac{[b_{r-1},a_r]}{[b_{r-1},b_{r-1}]}b_{r-1} \]

然后将他们单位化

\[e_i=\frac{b_i}{||b_i||}\quad i=1,2...r \]

\(e_1,e_2,...,e_r\)就是\(V\)的一组标准正交基。

  1. 定义   如果\(n\)阶矩阵\(A\)满足

\[A^TA=E\quad(即A^{-1}=A^T) \]

那么称\(A\)正交矩阵,简称正交阵

\(A=[\alpha_1,\alpha_2,\alpha_n]\),则\(A^TA=E\)

\[ \alpha_i^T\alpha_j^T=\left \{ \begin{matrix} 1 & ,\quad i = j \\ 0 &, \quad i \neq j \\ \end{matrix} \right. \]

这说明方阵\(A\)是正交矩阵的充分必要条件是\(A\)的列向量都是单位向量,且两两正交

  1. 定义   设\(P\)是正交矩阵,则线性变换\(y=Px\)正交变换

可知\(||y||=\sqrt{y^Ty}=\sqrt{x^TP^TPx}=\sqrt{x^Tx}=||x||\),这说明正交变换不改变向量的长度,只改变向量的方向。

二、特征值分解与奇异值分解

1、特征值与特征向量的定义

定义   设\(A\)\(n\)阶方阵,如果常数\(\lambda\)\(n\)维非零向量\(x\)满足

\[A x = \lambda x \]

\(\lambda\)特征值\(x\)特征向量

特征向量的求法,上式变形为

\[(A-\lambda E)x=0 \quad 有非零解\quad \Longrightarrow \quad |A-\lambda E|=0 \]

在复数范围内\(A\)\(n\)个特征向量。求解出\(\lambda_i\)后,可以根据\((A-\lambda_iE)x=0\)求解出特征向量\(x\).

2、特征值与特征向量的性质

  1. \(n\)阶矩阵\(A=(a_{ij})\)的特征值为\(\lambda_1,\lambda_2,...,\lambda_n\),则
      (1)  \(\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}=tr(A)\)
      (2)  \(\lambda_1\lambda_2...\lambda_n=|A|\)
      (3)  若\(\lambda\)\(A\)的特征值,则\(\lambda^2\)\(A^2\)的特征值;当\(A\)可逆时,\(\frac{1}{\lambda}\)\(A^{-1}\)的特征值。
      (4)  \(A\)可逆 \(\quad \Longleftrightarrow \quad\) \(A\)的全部特征值都不为零。

  2. 定理   设\(\lambda_1,\lambda_2,...,\lambda_m\)是方阵\(A\)\(m\)互不相等的特征值,\(p_1,p_2,...,p_m\)依次是其对应的特征向量,则向量组\(p_1,p_2,...,p_n\)线性无关。一句话概括就是:属于不同值特征的向量是线性无关的。(可用数学归纳法证之,略)

3、矩阵相似的概念

定义   设\(A\)\(B\)都是\(n\)阶方阵,若有可逆矩阵\(P\)使得

\[P^{-1}AP=B \]

则称\(A\)\(B\)相似,记做\(A \sim B\)
** 定理 **   若\(n\)阶矩阵\(A\)\(B\)相似,则\(A\)\(B\)的特征多项式相同,从而\(A\)\(B\)的特征值相同。(一句话:相似矩阵具有相同特征值)

证明: 

\[A \sim B \quad \Longrightarrow \quad 存在可逆矩阵P使得 \quad P^{-1}AP=B \quad \Longrightarrow \quad |B-\lambda E|=|P^{-1}AP-\lambda E|=|P^{-1}AP-\lambda P^{-1} EP|=|P^{-1}||A-\lambda E||P|=|A-\lambda E| \]

定义   对\(n\)阶矩阵\(A\),寻求相似变换矩阵\(P\)使得\(P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n)\),称把矩阵\(A\)对角化

不妨设我们已经找到可逆矩阵\(P\),使得\(P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n)\),将\(P\)表示称列向量的形式设 \(\; P=(p_1,p_2,...,p_n)\),则

\[P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n) \quad \Longrightarrow \quad A(p_1,p_2,...,p_n)=(p_1,p_2,...,p_n)dig(\lambda_1,\lambda_2,...,\lambda_n)=(\lambda_1p_1,\lambda_2p_2,...,\lambda_np_n) \]

于是有

\[Ap_i=\lambda_i\;p_i \quad (i=1,2,...,n) \]

这说明\(p_i\)就是\(A\)的特征向量\(\lambda_i\)就是\(A\)的特征值,\(A\)恰好有\(n\)个特征值,并可以求出\(n\)个特征向量,这\(n\)个特征向量即可构成矩阵\(P\)

定理\(A\)能对角化的充分必要条件\(A\)\(n\)个线性无关的特征向量。它的充分不必要条件\(A\)\(n\)个互不相等的特征值。

4、矩阵特征值分解

特征值与特征向量的几何意义  矩阵的乘法对应一个线性变换,是把任意一个向量变成另一个方向或者长度不同的新向量。在这个变换中,原向量主要发生旋转、伸缩变化。所谓特征向量其实就是在该矩阵的作用下,不对该向量产生旋转效果,只对他们做伸缩变换,伸缩比例就是特征值的大小。

  矩阵特征值分解就是将一个矩阵分解为

\[A=P \Lambda P^{-1} \]

其中,\(\Lambda\) 为由\(A\)的特征值组成的对角矩阵,\(P\)为相应的特征向量组成的矩阵。特征值是从大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化的方向(从主要变化到次要变化的排列)。

  也就是说,矩阵\(A\)的信息可以由其特征值与特征向量表示,矩阵对应的变换有很多变换方向,我们通过特征值分解得到前\(N\)个特征向量,那么就对应这个矩阵主要的变换方向,可以利用这前\(N\)个变化方向来近似表示这个矩阵的变换。总结一下就是,特征值表示这个特征有多重要,而特征向量表示这个特征是什么。它的局限性在于,变换的矩阵必须是方阵。

5、矩阵奇异值分解

  特征值分解是一个提取矩阵特征很不错的方法,但是它只针对方阵而言,在现实世界中,我们看到的大部分矩阵都不是方阵,那么如何提取一个\(m \times n\)矩阵的特征呢?奇异值分解就是来干这个事情的,奇异值分解能适用于任意矩阵的一种分解方法。

  设\(A\)是一个\(m \times n\)的矩阵,则\(A\)的分解形式为

\[A=UD V^T \]

分解得到的矩阵具有特殊的结构。\(U\)是一个\(m \times m\)正交矩阵(左奇异向量),\(D\)是一个$m \times n \(对角矩阵(奇异值),\)V\(是一个\)n \times n$的正交矩阵(右奇异向量)。

  那么奇异值如何计算呢?将\(A^T\)乘以\(A\)得到一个方程

\[(A^TA)v_i=\lambda_i v_i \]

通过上面方法求出\(A^TA\)的特征值\(\lambda_i\)和特征向量\(v_i\),于是就可以得到奇异值为

\[\sigma_i=\sqrt{\lambda_i} \]

 并且\(A\)的左奇异向量就是\(AA^T\)的特征向量,\(A\)的右奇异向量就是\(A^TA\)的特征向量。\(A\)的非零奇异值就是\(AA^T\)的特征值的平方根,\(A^TA\)也是一样的。
 奇异值\(\sigma\)和特征值类似,在矩阵\(D\)中也是从小到大排列的,而\(\sigma\)的减少特别快,在很多情况下,前\(10\%\)甚至前\(1\%\)的奇异值就占了全部奇异值和的\(99\%\)以上。也就是说我们可以用前\(r\)\(r\)远小于\(m,n\))个奇异值来近似代替和描述矩阵,即为部分奇异值的分解

\[A_{m \times r} \approx U_{m \times r} D_{r \times r} V^T_{r \times n} \]

如果想要压缩空间来表示原矩阵\(A\),可以存下这里的三个矩阵:\(U、D、V\)即可。

关于奇异值的计算是一个难题,是一个\(O(n^3)\)的算法,可以采用并行方法求解,在大规模矩阵求解中,一般使用迭代方法。

三、矩阵的迹算子

设矩阵\(A\)\(m \times n\)的矩阵,则\(A\)的迹\(Tr(A)\)定义为

\[Tr(A)=\sum_{i}A_{i,i} \]

迹算子具有很好的性质,在很多情况下很有用。例如矩阵\(A\)\(F\)范数可以表示为

\[||A||_F=\sqrt{Tr(AA^T)} \]

并且\(A\)的迹与\(A^T\)的迹相同,即为

\[Tr(A)=Tr(A^T) \]

并且迹的运算满足轮换规则

\[Tr(ABC)=Tr(CAB)=Tr(BCA) \]

更一般的

\[Tr(F_1F_2...F_n)=Tr(F_nF_1...F_{n-1}) \]

posted @ 2017-09-12 19:45  曹孟德  阅读(834)  评论(0编辑  收藏  举报