管理

线性代数

一、向量的性质

设$n$维向量$x=[x_1,x_2,...,x_n]^T$与$n$维向量$y=[y_1,y_2,...,y_n]^T$,则定义

\[[x,y]=x_1y_1+x_2y_2+...+x_ny_n \]

称作向量内积，即$[x,y]=x^Ty$（这种表示用的比较多）。
2. 定义若$x^Ty=0$则称向量$x$与$y$正交,即内积为0的两个向量正交。
3. 定理若$n$维向量$\alpha_1,\alpha_2,...,\alpha_r$是一组两两正交的非零向量，则向量组$\alpha_1,\alpha_2,...,\alpha_r$线性无关。

证明：设有$\lambda_1,\lambda_2,...,\lambda_r$使得

\[\lambda_1\alpha_1+\lambda_2\alpha_2+...+\lambda_r\alpha_r=0 \]

用$\alpha_i$与上式做内积（$[\alpha_i,\alpha_j]=0\quad, i \neq j$）故

\[\lambda_i[\alpha_i,\alpha_i]=0 \]

而$[\alpha_i,\alpha_i]>0$,故$\lambda_i=0$,从而向量组$\alpha_1,\alpha_2,...,\alpha_r$线性无关。

定义设$n$维向量$e_1,e_2,...,e_r$是向量空间$V$的一组基，如果$e_1,e_2,...,e_r$正交，且都是单位矩阵，则称$e_1,e_2,...,e_r$是$V$的标准正交基。

$V$中任一个向量$\alpha$可以表示为

\[\alpha=\lambda_1e_1+\lambda_2e_2+...+\lambda_re_r \]

用$e_i^T$左乘向量$\alpha$可以求出$\lambda_i$,即

\[e_i^T\alpha=\lambda_ie_i^Te_i=\lambda_i \quad \Longrightarrow \quad \lambda_i=[e_i,\alpha] \]

$Schmidt$正交化 设$\alpha_1,\alpha_2,...,\alpha_r$是空间$V$的一组基，可以通过下面方法求$V$的一组标准正交基

\[b_1=\alpha_1 \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \]

\[b_2=\alpha_2-\frac{[b_1,\alpha_2]}{[b_1,b_1]}b_1\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \]

\[............\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \]

\[b_r=\alpha_r-\frac{[b_1,a_r]}{[b_1,b_1]}b_1-\frac{[b_2,a_r]}{[b_2,b_2]}b_2-...-\frac{[b_{r-1},a_r]}{[b_{r-1},b_{r-1}]}b_{r-1} \]

然后将他们单位化

\[e_i=\frac{b_i}{||b_i||}\quad i=1,2...r \]

则$e_1,e_2,...,e_r$就是$V$的一组标准正交基。

定义如果$n$阶矩阵$A$满足

\[A^TA=E\quad(即A^{-1}=A^T) \]

那么称$A$为正交矩阵，简称正交阵。

设$A=[\alpha_1,\alpha_2,\alpha_n]$,则$A^TA=E$得

\[ \alpha_i^T\alpha_j^T=\left \{ \begin{matrix} 1 & ,\quad i = j \\ 0 &, \quad i \neq j \\ \end{matrix} \right. \]

这说明方阵$A$是正交矩阵的充分必要条件是$A$的列向量都是单位向量，且两两正交。

定义设$P$是正交矩阵，则线性变换$y=Px$是正交变换。

可知$||y||=\sqrt{y^Ty}=\sqrt{x^TP^TPx}=\sqrt{x^Tx}=||x||$，这说明正交变换不改变向量的长度，只改变向量的方向。

二、特征值分解与奇异值分解

1、特征值与特征向量的定义

定义设$A$是$n$阶方阵，如果常数$\lambda$和$n$维非零向量$x$满足

\[A x = \lambda x \]

称$\lambda$为特征值，$x$为特征向量。

特征向量的求法，上式变形为

\[(A-\lambda E)x=0 \quad 有非零解\quad \Longrightarrow \quad |A-\lambda E|=0 \]

在复数范围内$A$有$n$个特征向量。求解出$\lambda_i$后，可以根据$(A-\lambda_iE)x=0$求解出特征向量$x$.

2、特征值与特征向量的性质

设$n$阶矩阵$A=(a_{ij})$的特征值为$\lambda_1,\lambda_2,...,\lambda_n$,则
(1) $\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}=tr(A)$
(2) $\lambda_1\lambda_2...\lambda_n=|A|$
(3) 若$\lambda$是$A$的特征值，则$\lambda^2$是$A^2$的特征值;当$A$可逆时，$\frac{1}{\lambda}$是$A^{-1}$的特征值。
(4) $A$可逆 $\quad \Longleftrightarrow \quad$ $A$的全部特征值都不为零。
定理设$\lambda_1,\lambda_2,...,\lambda_m$是方阵$A$的$m$个互不相等的特征值，$p_1,p_2,...,p_m$依次是其对应的特征向量，则向量组$p_1,p_2,...,p_n$线性无关。一句话概括就是：属于不同值特征的向量是线性无关的。（可用数学归纳法证之，略）

3、矩阵相似的概念

定义设$A$和$B$都是$n$阶方阵，若有可逆矩阵$P$使得

\[P^{-1}AP=B \]

则称$A$与$B$相似,记做$A \sim B$
** 定理 ** 若$n$阶矩阵$A$与$B$相似，则$A$与$B$的特征多项式相同，从而$A$与$B$的特征值相同。(一句话：相似矩阵具有相同特征值)

证明：

\[A \sim B \quad \Longrightarrow \quad 存在可逆矩阵P使得 \quad P^{-1}AP=B \quad \Longrightarrow \quad |B-\lambda E|=|P^{-1}AP-\lambda E|=|P^{-1}AP-\lambda P^{-1} EP|=|P^{-1}||A-\lambda E||P|=|A-\lambda E| \]

定义对$n$阶矩阵$A$，寻求相似变换矩阵$P$使得$P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n)$，称把矩阵$A$对角化。

不妨设我们已经找到可逆矩阵$P$,使得$P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n)$,将$P$表示称列向量的形式设 $\; P=(p_1,p_2,...,p_n)$,则

\[P^{-1}AP=dig(\lambda_1,\lambda_2,...,\lambda_n) \quad \Longrightarrow \quad A(p_1,p_2,...,p_n)=(p_1,p_2,...,p_n)dig(\lambda_1,\lambda_2,...,\lambda_n)=(\lambda_1p_1,\lambda_2p_2,...,\lambda_np_n) \]

于是有

\[Ap_i=\lambda_i\;p_i \quad (i=1,2,...,n) \]

这说明$p_i$就是$A$的特征向量$\lambda_i$就是$A$的特征值，$A$恰好有$n$个特征值，并可以求出$n$个特征向量，这$n$个特征向量即可构成矩阵$P$。

定理 $A$能对角化的充分必要条件是$A$有$n$个线性无关的特征向量。它的充分不必要条件是$A$有$n$个互不相等的特征值。

4、矩阵特征值分解

特征值与特征向量的几何意义 矩阵的乘法对应一个线性变换，是把任意一个向量变成另一个方向或者长度不同的新向量。在这个变换中，原向量主要发生旋转、伸缩变化。所谓特征向量其实就是在该矩阵的作用下，不对该向量产生旋转效果，只对他们做伸缩变换，伸缩比例就是特征值的大小。

矩阵特征值分解就是将一个矩阵分解为

\[A=P \Lambda P^{-1} \]

其中，$\Lambda$ 为由$A$的特征值组成的对角矩阵，$P$为相应的特征向量组成的矩阵。特征值是从大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化的方向（从主要变化到次要变化的排列）。

也就是说，矩阵$A$的信息可以由其特征值与特征向量表示，矩阵对应的变换有很多变换方向，我们通过特征值分解得到前$N$个特征向量，那么就对应这个矩阵主要的变换方向，可以利用这前$N$个变化方向来近似表示这个矩阵的变换。总结一下就是，特征值表示这个特征有多重要，而特征向量表示这个特征是什么。它的局限性在于，变换的矩阵必须是方阵。

5、矩阵奇异值分解

特征值分解是一个提取矩阵特征很不错的方法，但是它只针对方阵而言，在现实世界中，我们看到的大部分矩阵都不是方阵，那么如何提取一个$m \times n$矩阵的特征呢？奇异值分解就是来干这个事情的，奇异值分解能适用于任意矩阵的一种分解方法。

设$A$是一个$m \times n$的矩阵，则$A$的分解形式为

\[A=UD V^T \]

分解得到的矩阵具有特殊的结构。$U$是一个$m \times m$正交矩阵（左奇异向量），$D$是一个$m \times n $对角矩阵（奇异值）,$V$是一个$n \times n$的正交矩阵（右奇异向量）。

那么奇异值如何计算呢？将$A^T$乘以$A$得到一个方程

\[(A^TA)v_i=\lambda_i v_i \]

通过上面方法求出$A^TA$的特征值$\lambda_i$和特征向量$v_i$，于是就可以得到奇异值为

\[\sigma_i=\sqrt{\lambda_i} \]

并且$A$的左奇异向量就是$AA^T$的特征向量，$A$的右奇异向量就是$A^TA$的特征向量。$A$的非零奇异值就是$AA^T$的特征值的平方根，$A^TA$也是一样的。
奇异值$\sigma$和特征值类似，在矩阵$D$中也是从小到大排列的，而$\sigma$的减少特别快，在很多情况下，前$10\%$甚至前$1\%$的奇异值就占了全部奇异值和的$99\%$以上。也就是说我们可以用前$r$（$r$远小于$m,n$）个奇异值来近似代替和描述矩阵，即为部分奇异值的分解

\[A_{m \times r} \approx U_{m \times r} D_{r \times r} V^T_{r \times n} \]

如果想要压缩空间来表示原矩阵$A$，可以存下这里的三个矩阵：$U、D、V$即可。

关于奇异值的计算是一个难题，是一个$O(n^3)$的算法，可以采用并行方法求解，在大规模矩阵求解中，一般使用迭代方法。

三、矩阵的迹算子

设矩阵$A$为$m \times n$的矩阵，则$A$的迹$Tr(A)$定义为

\[Tr(A)=\sum_{i}A_{i,i} \]

迹算子具有很好的性质，在很多情况下很有用。例如矩阵$A$的$F$范数可以表示为

\[||A||_F=\sqrt{Tr(AA^T)} \]

并且$A$的迹与$A^T$的迹相同，即为

\[Tr(A)=Tr(A^T) \]

并且迹的运算满足轮换规则

\[Tr(ABC)=Tr(CAB)=Tr(BCA) \]

更一般的

\[Tr(F_1F_2...F_n)=Tr(F_nF_1...F_{n-1}) \]

posted @ 2017-09-12 19:45 曹孟德阅读(899) 评论(0) 收藏举报

刷新页面返回顶部

曹孟德