线性代数及其应用 第五章
第 5 章 特征值与特征向量
本章的目的是剖析线性变换 \(\bm A\mapsto\bm A\bm x\) 的作用,把它分解为容易理解的元素。出现矩阵均为方阵。
5.1 特征向量与特征值
定义 \(\;\) \(\bm A\) 为 \(n\times n\) 矩阵,\(\bm x\) 为非零向量,若存在数 \(\lambda\) 使 \(\bm A\bm x=\lambda\bm x\) 有非平凡解 \(\bm x\),则称 \(\lambda\) 为 \(\bm A\) 的特征值,\(\bm x\) 称为对应于 \(\lambda\) 的特征向量。
验证 \(\bm x\) 是否为 \(\bm A\) 的特征向量是简单的。若要验证 \(\lambda\) 是否为 \(\bm A\) 的特征值,只需求方程 \(\bm A\bm x=\lambda\bm x\) 是否有非平凡解。于是 \((\bm A-\lambda\bm I)\bm x=\bm0\),观察 \(\bm A-\lambda\bm I\) 的各列是否线性相关即可。如果是的话,解这个方程就能得出所有 \(\lambda\) 对应的特征向量。
方程 \((\bm A-\lambda\bm I)\bm x=\bm0\) 的解集就是矩阵 \(\bm A-\lambda\bm I\) 的零空间,它是 \(\mathbb{R}^n\) 的子空间,称为 \(\bm A\) 对应于 \(\lambda\) 的特征空间。特征空间由零向量和所有对应于 \(\lambda\) 的特征向量组成。
定理 1
三角形矩阵的主对角线的元素是其特征值。
假设 \(\bm A\) 是 \(3\times 3\) 上三角形矩阵,则
\[\bm A-\lambda\bm I=\begin{bmatrix}a_{11}-\lambda&a_{12}&a_{13}\\0&a_{22}-\lambda&a_{23}\\0&0&a_{33}-\lambda\end{bmatrix} \]当方程 \((\bm A-\lambda\bm I)\bm x=\bm0\) 存在非平凡解,主对角线元素至少有一个为零,当 \(\lambda\) 取 \(a_{11},a_{22},a_{33}\) 满足条件,它们就是 \(\bm A\) 的特征值。\(\bm A\) 是下三角形矩阵是同理。得证。
\(0\) 是 \(\bm A\) 的特征值当且仅当 \(\bm A\) 不可逆,也就是 \(\bm A\bm x=0\bm x=\bm0\) 有非平凡解。
定理 2
\(\lambda_1,\lambda_2,\cdots,\lambda_r\) 是 \(n\times n\) 矩阵 \(\bm A\) 相异的特征值,\(\bm v_1,\bm v-2,\cdots,\bm v_r\) 是与 \(\lambda_1,\lambda_2,\cdots,\lambda_r\) 对应的特征向量,那么向量集合 \(\{\bm v_1,\bm v_2,\cdots,\bm v_r\}\) 线性无关。
反证法。假设 \(\{\bm v_1,\bm v_2,\cdots,\bm v_r\}\) 线性相关。\(\bm v_1\) 非零,令 \(p\) 是最小的满足 \(v_{p+1}\) 是前面向量的线性组合的下标。即存在 \(c_1,c_2,\cdots,c_p\) 满足
\[c_1\bm v_1+c_2\bm v_2+\cdots+c_p\bm v_p=\bm v_{p+1} \]左右同乘 \(\bm A\):
\[c_1\lambda_1\bm v_1+c_2\lambda_2\bm v_2+\cdots+c_p\lambda_p\bm v_p=\lambda_{p+1}\bm v_{p+1} \]将前式乘 \(\lambda_{p+1}\),作差可得
\[c_1(\lambda_1-\lambda_{p+1})\bm v_1+c_2(\lambda_2-\lambda_{p+1})\bm v_2+\cdots+c_p(\lambda_p-\lambda_{p+1})\bm v_p=\bm0 \]因为 \(\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\) 线性无关,\(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}\) 相异,\(\forall i,c_i=0\),则 \(\bm v_{p+1}=\bm0\),矛盾。则 \(\{\bm v_1,\bm v_2,\cdots,\bm v_r\}\) 线性无关。得证。
特征向量与差分方程
对于一阶差分方程
构造解的最简单方法是取 \(\bm A\) 的一个特征向量 \(\bm x_0\) 与其对应特征值 \(\lambda\),它的解就是
5.2 特征方程
求 \(n\times n\) 矩阵 \(\bm A\) 的特征值,即求出所有 \(\lambda\) 使得 \(\det(\bm A-\lambda\bm I)=0\)。将行列式展开会得到关于 \(\lambda\) 的一个 \(n\) 次方程。称数值方程 \(\det(\bm A-\lambda\bm I)=0\) 为 \(\bm A\) 的特征方程,\(\det(\bm A-\lambda\bm I)=0\) 称为 \(\bm A\) 的特征多项式。\(\lambda\) 是 \(\bm A\) 的特征值的充要条件是 \(\lambda\) 是该方程的根。
\(\bm A=\begin{bmatrix}5&0&0&0\\0&3&0&0\\0&0&5&0\\0&0&0&1\end{bmatrix}\) 的特征方程是 \((5-\lambda)^2(3-\lambda)(1-\lambda)=0\),此时称特征值 \(5\) 有重数 \(2\)。把特征值 \(\lambda\) 作为特征方程根的重数称为 \(\lambda\) 的(代数)重数。
相似性
下列定理说明了特征多项式的一个用途,为某些近似计算特征值的迭代算法提供了理论基础。
假设 \(\bm A,\bm B\) 是 \(n\times n\) 矩阵,存在可逆矩阵 \(\bm P\) 使得 \(\bm P^{-1}\bm A\bm P=\bm B\)(等价地,\(\bm A=\bm P\bm B\bm P^{-1}\)),称 \(\bm A\) 相似于 \(\bm B\)。同时 \(\bm P\bm B\bm P^{-1}=\bm A\),\(\bm B\) 也相似于 \(\bm A\),说 \(\bm A\) 和 \(\bm B\) 是相似的。把 \(\bm A\) 变成 \(P^{-1}\bm A\bm P\) 的变换称为相似变换。
定理 3
若 \(n\times n\) 矩阵 \(\bm A\) 和 \(\bm B\) 是相似的,那么它们有相同的特征多项式,从而有相同的特征值(和相同的重数)。
有 \(\bm B=\bm P^{-1}\bm A\bm P\),那么
\[\bm B-\lambda\bm I=\bm P^{-1}\bm A\bm P-\lambda\bm P^{-1}\bm P=\bm P^{-1}(\bm A-\lambda\bm I)\bm P \]则
\[\begin{aligned}\det(\bm B-\lambda\bm I)&=\det(\bm P^{-1})\cdot\det(\bm A-\lambda\bm I)\cdot\det(\bm P)\\&=\det(\bm A-\lambda\bm I)\end{aligned} \]
一个广泛用来估计一般矩阵 \(\bm A\) 的特征值的方法是 \(\mathrm{QR}\) 算法。在适当条件下,它产生一个矩阵序列,其中矩阵全部相似于 \(\bm A\)。矩阵几乎是上三角的,并且把主对角线上的元素近似于 \(\bm A\) 的特征值。
其将 \(\bm A\)(或另一个与 \(\bm A\) 相似的矩阵)进行 \(\mathrm{QR}\) 分解,有 \(\bm A=\bm Q_1\bm R_1\),\(\bm Q_1^T=\bm Q_1^{-1}\),\(\bm R_1\) 是上三角矩阵,交换 \(\bm Q_1,\bm R_1\) 形成 \(\bm A_1=\bm R_1\bm Q_1\),然后对 \(\bm A_1\) 进行上述操作,依此类推。因为 \(\bm Q^{-1}\bm A\bm Q=\bm R\bm Q\),\(\bm A,\bm A_1,\cdots\) 是相似的。
应用到动力系统
设 \(\bm A=\begin{bmatrix}0.95&0.03\\0.05&0.97\end{bmatrix}\),分析由 \(\bm x_{k+1}=\bm A\bm x_{k}(k=0,1,2,\cdots),\bm x_0\begin{bmatrix}0.6\\0.4\end{bmatrix}\) 所确定的动力系统的长期发展趋势。
第一步解出 \(\bm A\) 的特征值 \(\lambda=1,0.92\),得到对应特征向量 \(\bm v_1=\begin{bmatrix}3\\5\end{bmatrix}\) 和 \(\bm v_2=\begin{bmatrix}1\\-1\end{bmatrix}\)。
第二步,\(\{\bm v_1,\bm v_2\}\) 是 \(\mathbb{R^2}\) 的基,将 \(\bm x_0\) 表示为它们的线性组合:
\[\bm x_0=\begin{bmatrix}\bm v_1&\bm v_2\end{bmatrix}\begin{bmatrix}c_1\\c_2\end{bmatrix} \]得到
\[\begin{bmatrix}c_1\\c_2\end{bmatrix}=\begin{bmatrix}\bm v_1&\bm v_2\end{bmatrix}^{-1}\bm x_0=\begin{bmatrix}0.125\\0.225\end{bmatrix} \]那么
\[\begin{aligned}\bm x_k &=\bm A^k(c_1\bm v_1+c_2\bm v_2)\\&=c_1\bm v_1+c_2(0.92)^k\bm v_2\\&=0.125\begin{bmatrix}3\\5\end{bmatrix}+0.225(0.92)^k\begin{bmatrix}1\\-1\end{bmatrix}\end{aligned} \]\(\bm x_k\) 的显式公式就是差分方程的解。容易得到
\[当 k\rightarrow\infty 时,\bm x_k\rightarrow\begin{bmatrix}0.375\\0.625\end{bmatrix} \]
5.3 对角化
分解式 \(\bm A=\bm P\bm D\bm P^{-1}\)(\(\bm D\) 为对角矩阵)能够在 \(k\) 较大时快速计算 \(\bm A^k\),还能用于分析(解耦)动力系统。
计算 \(\bm D^k\) 是简单的。注意到 \(\bm A^k=(\bm P\bm D\bm P^{-1})^k=\bm P\bm D^k\bm P^{-1}\),这就使得计算更为简单了。
如果方阵 \(\bm A\) 相似于对角矩阵,即存在可逆矩阵 \(\bm P\) 和对角矩阵 \(\bm D\) 使得 \(\bm A=\bm P\bm D\bm P^{-1}\),称 \(\bm A\) 可对角化。
定理 4(对角化定理)
\(n\times n\) 矩阵 \(\bm A\) 可对角化的充分必要条件是 \(\bm A\) 有 \(n\) 个线性无关的特征向量。
事实上,\(\bm A=\bm P\bm D\bm P^{-1}\),\(\bm D\) 为对角矩阵的充分必要条件是 \(\bm P\) 的列向量是 \(\bm A\) 的 \(n\) 个线性无关的特征向量。此时 \(\bm D\) 的主对角线上的元素分别是 \(\bm A\) 的对应于 \(\bm P\) 中特征向量的特征值。
换句话说,\(\bm A\) 可对角化的充要条件是有足够的特征向量形成 \(\mathbb{R}^n\) 的基,称为特征向量基。
若 \(\bm P\) 是列为 \(\bm v_1,\cdots,\bm v_n\) 的 \(n\times n\) 矩阵,\(\bm D\) 是对角线元素为 \(\lambda_1,\cdots,\lambda_n\) 的对角矩阵,则
\[\bm A\bm P=\begin{bmatrix}\bm A\bm v_1&\bm A\bm v_2&\cdots&\bm A\bm v_n\end{bmatrix} \]\[\bm P\bm D=\begin{bmatrix}\lambda_1\bm v_1&\lambda_2\bm v_2&\cdots&\lambda_n\bm v_n\end{bmatrix} \]假设 \(\bm A\) 可对角化且 \(\bm A=\bm P\bm D\bm P^{-1}\),则 \(\bm A\bm P\bm P\bm D\),可得
\[\forall i=1,2,\cdots,n,\bm A\bm v_i=\lambda_i\bm v_i \]由于 \(\bm P\) 可逆,\(\bm v_1,\cdots,\bm v_n\) 线性无关。这说明 \(\lambda_1,\cdots,\lambda_n\) 是特征值,\(\bm v_1,\cdots,\bm v_n\) 为相应的特征向量。命题必要性得证,而充分性也是简单的。
矩阵的对角化
对角化工作分为以下四步:
\(1.\) 求出 \(\bm A\) 的特征值(可用计算机软件辅助)。
\(2.\) 求出 \(\bm A\) 的 \(n\) 个线性无关的特征向量 \(\bm v_1,\cdots,\bm v_n\)。若不存在这样的 \(n\) 个向量则无法对角化。
\(3.\) 构造矩阵 \(\bm P=\begin{bmatrix}\bm v_1&\bm v_2&\cdots&\bm v_n\end{bmatrix}\)(向量的次序不重要)。
\(4.\) 用对应的特征值构造矩阵 \(\bm D\)。特征值的出现次数等于它的重数。
验证正确性,只需满足 \(\bm A\bm P=\bm P\bm D\)。注意 \(\bm P\) 应是可逆的。
定理 5
有 \(n\) 个相异特征值的 \(n\times n\) 矩阵可对角化。
定理 6
设 \(\bm A\) 是 \(n\times n\) 矩阵,其相异的特征值是 \(\lambda_1,\lambda_2,\cdots,\lambda_p\)。
\(\text{a}.\) 对于 \(1\le k\le p\),\(\lambda_k\) 的特征空间的维数小于或等于 \(\lambda_k\) 的代数重数。
\(\text{b}.\) 矩阵 \(\bm A\) 可对角化的充分必要条件是所有不同特征空间的维数之和为 \(n\)。即 \((\text{i})\) 特征多项式可完全分解为线性因子,\((\text{ii})\) 每个 \(\lambda_k\) 的特征空间的维数等于 \(\lambda_k\) 的代数重数。
\(\text{c}.\) 若 \(\bm A\) 可对角化,\(\mathcal{B}_k\) 是对应于 \(\lambda_k\) 的特征空间的基,则 \(\mathcal{B}_1,\mathcal{B}_2,\cdots,\mathcal{B}_p\) 中所有向量的集合是 \(\mathbb{R}^n\) 的特征向量基。
5.4 特征向量与线性变换
我们研究线性变换 \(T:V\rightarrow V\) 的特征值和特征向量,\(V\) 为任意向量空间。
线性变换的特征向量
特征值和特征向量在 \(V\) 中的定义相当于在 \(\mathbb{R}^n\) 中的推广。
已知正弦波信号 \(\{s_k\}=\Big\{\cos(\dfrac{k\pi}{2})\Big\},k\in\mathbb{Z}\),左双移位线性变换 \(D\) 由 \(D(\{x_k\})=\{x_{k+2}\}\) 定义。
令 \(\{y_k\}=D\{s_k\}\),利用三角函数公式可得 \(D\{s_k\}=\{-s_k\}=-\{s_k\}\),这说明 \(\{s_k\}\) 是 \(D\) 的特征向量,其特征值为 \(-1\)。
线性变换的矩阵
目前只考虑与有限维向量空间相关的线性变换和矩阵。
有 \(n\) 维向量空间 \(V\) 和线性变换 \(T:V\rightarrow V\),选择 \(V\) 的一组基 \(\mathcal{B}\)。
若 \(\bm x\in V\),坐标向量 \([\bm x]_\mathcal{B},[T(\bm x)]_\mathcal{B}\in\mathbb{R}^n\)。设 \(\mathcal{B}=\{\bm b_1,\cdots,\bm b_n\}\),\(\bm x=r_1\bm b_1+\cdots+r_n\bm b_n\),那么
由于坐标映射是线性的:
改写为
其中
矩阵 \(\bm M\) 是 \(T\) 的矩阵表示,称为 \(T\) 相对于基 \(\mathcal{B}\) 的矩阵。
故就坐标向量而言,\(T\) 对 \(\bm x\) 的作用相当于用矩阵 \(\bm M\) 左乘 \(\bm x\)。
\(\mathbb{P}_2\rightarrow\mathbb{P}_2\) 的映射 \(T\):\(T(a_0+a_1t+a_2t^2)=a_1+2a_2t\) 是线性变换(\(T\) 是微分算子)。
若基 \(\mathcal{B}=\{1,t,t^2\}\),写出 \(T(1),T(t),T(t^2)\) 的 \(\mathcal{B}-\) 坐标即可得到 \(T\) 的 \(\mathcal{B}-\) 矩阵:
\[[T]_\mathcal{B}=\begin{bmatrix}[T(1)]_\mathcal{B}&[T(t)]_\mathcal{B}&[T(t^2)]_\mathcal{B}\end{bmatrix}=\begin{bmatrix}0&1&0\\0&0&2\\0&0&0\end{bmatrix} \]对一般多项式 \(\bm p(t)=a_0+a_1t+a_2t^2\),可以验证
\[[T(\bm p)]_\mathcal{B}=[T]_\mathcal{B}[\bm p]_\mathcal{B} \]
\(\mathbb{R}^n\) 上的线性变换
定理 7(对角矩阵表示)
设 \(\bm A=\bm P\bm D\bm P^{-1}\),\(D\) 为 \(n\times n\) 对角矩阵,若 \(\mathbb{R}^n\) 的基 \(\mathcal{B}\) 由 \(\bm P\) 的列向量构成,那么 \(\bm D\) 是变换 \(\bm x\mapsto\bm A\bm x\) 的 \(\mathcal{B}-\) 矩阵。
设 \(\mathcal{B}=\{\bm b_1,\bm b_2,\cdots,\bm b_n\}\),\(\bm P=[\bm b_1\bm b_2\cdots\bm b_n]\)。此时 \(\bm P\) 是 4.4 节中提到的坐标变换矩阵 \(\bm P_\mathcal{B}\),满足
\[\bm P[\bm x]_\mathcal{B}=\bm x\quad[\bm x]_\mathcal{B}=\bm P^{-1}\bm x \]若 \(\bm x\in\mathbb{R}^n\),\(T(\bm x)=\bm A\bm x\),则
\[\begin{aligned} \left[T\right]_\mathcal{B} &=\left[\left[\bm A\bm b_1\right]_\mathcal{B}\cdots\left[\bm A\bm b_n\right]_\mathcal{B}\right] \\ &=\left[\bm P^{-1}\bm A\bm b_1\cdots\bm P^{-1}\bm A\bm b_n\right] \\ &=\bm P^{-1}\bm A\left[\bm b_1\cdots\bm b_n\right] \\ &=\bm P^{-1}\bm A\bm P \end{aligned} \]由于 \(\bm A=\bm P\bm D\bm P^{-1}\),\([T]_\mathcal{B}=\bm P^{-1}\bm A\bm P=\bm D\)。
此时 \(\bm x\mapsto\bm A\bm x\) 和 \(\bm u\mapsto\bm D\bm u\) 是相对于不同基的同一个线性变换。
矩阵表示的相似性
上一定理的证明与 \(\bm D\) 是对角矩阵无关。因此只需 \(\bm A\) 相似于 \(\bm C\),即 \(\bm A=\bm P\bm C\bm P^{-1}\),且 \(\mathcal{B}\) 由 \(\bm P\) 的列向量构成,\(\bm C\) 就是变换 \(\bm x\mapsto\bm A\bm x\) 的 \(\mathcal{B}-\) 矩阵。
于是 \(\bm x\xrightarrow{乘以 \bm P^{-1}}[\bm x]_\mathcal{B}\xrightarrow{乘以 \bm C}[\bm A\bm x]_\mathcal{B}\xrightarrow{乘以\bm P}\bm A\bm x\)。
反之,若 \(\mathbb{R}^n\rightarrow\mathbb{R}^n\) 的变换 \(T:T(\bm x)=\bm A\bm x\),\(\mathcal{B}\) 是 \(\mathbb{R}^n\) 的任意一个基,则 \(T\) 的 \(\mathcal{B}-\) 矩阵相似于 \(\bm A\),从定理 7 的计算中也能发现这一点。因此,所有相似于 \(\bm A\) 的矩阵的集合与变换 \(\bm x\mapsto\bm A\bm x\) 的所有矩阵表示的集合是相同的。
5.5 复特征值
考虑 \(n\times n\) 矩阵的特征方程的复根,从 \(\mathbb{R}^n\) 推广至 \(\mathbb{C}^n\)。
对复特征值的研究能够揭示某些实矩阵中隐藏的信息。这些问题包括很多蕴涵周期运动的实动力系统、振动或空间的某种旋转。
假设 \(\bm A=\begin{bmatrix}0&-1\\1&0\end{bmatrix}\),\(\mathbb{R}^2\) 上的线性变换 \(\bm x\mapsto\bm A\bm x\) 将平面逆时针旋转 \(1/4\) 圈,其显然在 \(\mathbb{R}^2\) 中无特征向量。已知其特征方程
\[\lambda^2+1=0 \]只有复根 \(\lambda=\pm i\)。让 \(\bm A\) 作用于 \(\mathbb{C}^2\),可以得到 \(i\) 和 \(-i\) 是特征值,\(\begin{bmatrix}1\\-i\end{bmatrix}\) 和 \(\begin{bmatrix}1\\i\end{bmatrix}\) 是对应的特征向量。
设 \(\bm A=\begin{bmatrix}0.5&-0.6\\0.75&1.1\end{bmatrix}\),求其特征值及每个特征空间的基。
由行列式容易解得 \(\lambda=0.8\pm0.6i\),对 \(\lambda=0.8-0.6i\),有
\[\bm A-\lambda\bm I=\begin{bmatrix}-0.3+0.6i&-0.6\\0.75&0.3+0.6i\end{bmatrix} \]其给出了两个 \(x_1\) 和 \(x_2\) 之间的等式。实际上它们一定描述同一个关系,由 \(0.75x_1+(0.3+0.6i)x_2=0\),可得其对应特征空间的基为 \(\begin{bmatrix}-2-4i\\5\end{bmatrix}\),对于另一个特征值也用相同的方法即可,而验算结果是否正确是较为简单的。
向量的实部和虚部
向量 \(\operatorname{Re}\bm x\) 和 \(\operatorname{Im}\bm x\) 称为复向量 \(\bm x\) 的实部和虚部,有
复数的共轭运算性质对复矩阵代数是成立的。
作用于 \(\mathbb{C}^n\) 上的实矩阵的特征值和特征向量
若 \(\bm A\) 为 \(n\times n\) 实矩阵,则 \(\overline{\bm A\bm x}=\bm A\overline{\bm x}\)。若 \(\lambda\) 是 \(\bm A\) 的特征值,\(\bm x\) 是对应特征向量,则
故 \(\overline{\lambda}\) 是 \(\bm A\) 的特征值,\(\overline{\bm x}\) 是对应特征向量。这表明当 \(\bm A\) 是实矩阵时,其复特征值以共轭复数对出现。
设非零实矩阵 \(\bm C=\begin{bmatrix}a&-b\\b&a\end{bmatrix}\),它的特征值是 \(\lambda=a\pm bi\),设 \(r=|\lambda|=\sqrt{a^2+b^2}\),\(\varphi\) 为 \(\lambda\) 的辐角,有
\[\bm C=r\begin{bmatrix}a/r&-b/r\\b/r&a/r\end{bmatrix}=\begin{bmatrix}r&0\\0&r\end{bmatrix}\begin{bmatrix}\cos\varphi&-\sin\varphi\\\sin\varphi&\cos\varphi\end{bmatrix} \]变换 \(\bm x\mapsto\bm C\bm x\) 可视为旋转 \(\varphi\) 和倍乘 \(|\lambda|\) 的复合。
接着用前面的例子来揭示有复特征值的实矩阵中隐含的旋转:
\[\bm A=\begin{bmatrix}0.5&-0.6\\0.75&1.1\end{bmatrix},\lambda=0.8-0.6i,\bm v=\begin{bmatrix}-2-4i\\5\end{bmatrix} \]设 \(2\times 2\) 实矩阵 \(\bm P,\bm C\):
\[\bm P=\begin{bmatrix}\operatorname{Re}\bm v&\operatorname{Im}\bm v\end{bmatrix}=\begin{bmatrix}-2&-4\\5&0\end{bmatrix} \]\[\bm C=\bm P^{-1}\bm A\bm P=\begin{bmatrix}0.8&-0.6\\0.6&0.8\end{bmatrix} \]可得
\(\bm A=\bm P\begin{bmatrix}0.8&-0.6\\0.6&0.8\end{bmatrix}\bm P^{-1}\)。旋转产生的是椭圆,因为由 \(\bm P\) 的列确定的坐标系不是长方形的,在两个轴上没有相等的单位长。
定理 8
设 \(2\times 2\) 实矩阵 \(\bm A\) 有复特征值 \(\lambda=a-bi(b\ne0)\) 及对应的 \(\mathbb{C}^2\) 中复特征向量 \(\bm v\),那么
\[\bm A=\bm P\bm C\bm P^{-1} \]其中
\[\bm P=\begin{bmatrix}\operatorname{Re}\bm v&\operatorname{Im}\bm v\end{bmatrix},\bm C=\begin{bmatrix}a&-b\\b&a\end{bmatrix} \]
首先 \(\operatorname{Re}\bm v\) 和 \(\operatorname{Im}\bm v\) 显然是线性无关的,\(\bm A(\operatorname{Re}\bm v)=\operatorname{Re}\bm A\bm x\),\(\bm A(\operatorname{Im}\bm x)=\operatorname{Im}\bm A\bm x\),\(\bm A\bm v=\lambda\bm v\),于是考虑证明 \(\bm A\bm P=\bm P\bm C\)。
\[\begin{aligned} \bm A\bm P &=\begin{bmatrix}\bm A\operatorname{Re}\bm v&\bm A\operatorname{Im}\bm v\end{bmatrix} \\ &=\begin{bmatrix}\operatorname{Re}\lambda\bm v&\operatorname{Im}\lambda\bm v\end{bmatrix} \\ &=\begin{bmatrix}a\operatorname{Re}\bm v+b\operatorname{Im}\bm v&-b\operatorname{Re}\bm v+a\operatorname{Im}\bm v\end{bmatrix} \\ &=\bm P\bm C \end{aligned} \]得证。
5.6 离散动力系统
在 5.2 节中有简单提到。
生态问题比物理或工程上的问题更容易描述和解释。控制系统中的稳态响应在工程上等价于动力系统 \(\bm x_{k+1}=\bm A\bm x_k\) 的长期行为。
假设 \(\bm A\) 可对角化,有 \(n\) 个线性无关的特征向量 \(\bm v_1,\cdots,\bm v_n\) 和对应特征向量 \(\lambda_1,\cdots,\lambda_n\)(为了方便,令 \(|\lambda_i|\) 单调不升)。
对于初始向量 \(\bm x_0=c_1\bm v_1+\cdots+c_n\bm v_n\),有
若仅 \(i=1\) 时满足 \(|\lambda_1|\ge1\),\(c_1\ne0\),对足够大的 \(k\):
解的几何意义
对于 \(2\times 2\) 对角矩阵 \(\bm A\),画出动力系统 \(\bm x_{k+1}=\bm A\bm x_k\) 的若干条轨迹(由 \(\bm x_0,\bm x_1,\bm x_2,\cdots\) 组成的图形)。
-
当两个特征值的绝对值均小于 \(1\),轨迹趋于原点,称为动力系统的吸引子。过原点且特征值绝对值最小的特征向量 \(\bm v_2\) 的直线的方向是最大吸引方向。
-
当两个特征值的绝对值均大于 \(1\),轨迹远离原点,称为动力系统的排斥子。过原点且特征值绝对值最大的特征向量 \(\bm v_1\) 的直线的方向是最大排斥方向。
-
当两个特征值的绝对值分别 \(>1\) 和 \(<1\),原点在某些方向有吸引解,某些方向有排斥解,称为鞍点。最大吸引、排斥方向同上。
在线性动力系统中只有原点可能是吸引子或排斥子,而在非线性的更一般的动力系统中可能存在多个吸引子和排斥子。
显然对于一般的 \(\bm A\),若其可对角化,动力系统的轨迹的区别在于用特征向量代替了标准基(以它们为坐标轴)。
若 \(\bm A\) 有两个绝对值(模)小于 \(1\) 的复特征值,原点是排斥子,\(\bm x_0\) 的迭代绕原点向外作螺旋线旋转。若都小于 \(1\),原点是吸引子,\(\bm x_0\) 的迭代绕原点向内作螺旋线旋转。
5.7 在微分方程中的应用
在很多应用问题中,某些量随时间连续变化,与下列微分方程组有关:
\(x_i\) 是关于 \(t\) 的可导函数,\(a_{ij}\) 为常数,将其写成矩阵微分方程
其中
方程显然是线性的,其解为向量值函数,定义在某实数区间。若 \(\bm u\) 和 \(\bm v\) 都是解,\(c\bm u+d\bm v\) 也是方程的解。
零函数也是方程的(平凡)解。方程的解集是值属于 \(\mathbb{R}^n\) 的所有连续函数组成的集合的子空间。
微分方程相关的教材证明了方程存在基础解系,它是解集的基,那么解集就是函数的 \(n\) 维向量空间。
若给定向量 \(\bm x_0\),初值问题就是构造一个(唯一)函数 \(\bm x\),满足 \(\bm x'=\bm A\bm x\) 和 \(\bm x(0)=\bm x_0\)。
若 \(\bm A\) 是对角矩阵,例如:
则有 \(x_1'(t)=3x_1(t)\),\(x_2'(t)=-5x_2(t)\),每个函数的导数依赖于其本身,称它是解耦的。
关于函数的求解与动力系统的解耦需要微积分知识,暂且略过。
5.8 特征值的迭代估计
幂算法
适用于 \(n\times n\) 矩阵 \(\bm A\) 有严格占优特征值(或主特征值)\(\lambda_1\) 的情况,意思是其绝对值比其他特征值都大。该算法产生一个近似 \(\lambda_1\) 的数列和一个近似对应的主特征向量的向量序列。
简单起见,令 \(\bm A\) 可对角化,\(\lambda_1\) 是主特征值,有
显然地,
假设 \(c_1\ne0\):
则当 \(k\rightarrow\infty\) 时,
则 \(\bm A^k\) 与 \(\bm v_1\) 所在直线见夹角趋于零。
若对 \(\bm A^k\bm x\) 进行倍乘使其最大分量为 \(1\),则所得序列 \(\{\bm x_k\}\) 收敛于 \(\bm v_1\) 的倍数,它的最大分量也是 \(1\)。
当 \(\bm x_k\) 接近 \(\bm v_1\) 时,\(\bm A\bm x_k\) 接近 \(\lambda_1\bm x_k\),\(\bm A\bm x_k\) 的最大分量接近 \(\lambda_1\)。
估计严格占优特征值的幂算法
\(1.\) 选择一个最大分量为 \(1\) 的初始向量 \(\bm x_0\)。
\(2.\) 对 \(k=0,1,2,\cdots,\)
\(\quad\text{a}.\) 计算 \(\bm A\bm x_k\)。
\(\quad\text{b}.\) 设 \(\mu_k\) 是 \(\bm A\bm x_k\) 中绝对值最大的一个分量。
\(\quad\text{c}.\) 计算 \(\bm x_{k+1}=(1/\mu_k)\bm A\bm x_k\)。
\(3.\) 几乎对所有选择的 \(\bm x_0\),序列 \(\{\mu_k\}\) 近似于主特征值,而序列 \(\{\bm x_k\}\) 近似于对应的特征向量。
序列的收敛速度取决于 \(|\lambda_2/\lambda_1|\)。
若随机的 \(\bm x_0\) 使得 \(c_1=0\),计算时的舍入误差可能使得所产生向量在 \(\bm v_1\) 上存在分量,最终 \(\{\bm x_k\}\) 收敛于 \(\bm v_1\) 的倍数。
逆幂法
若 \(\bm A\) 有特征值 \(\lambda\) 和对应特征向量 \(\bm v\),\(\alpha\) 不是 \(\bm A\) 的特征值:
在知道特征值 \(\lambda\) 的一个较好的初始估值 \(\alpha\) 后,逆幂法也用来对任意特征值做近似估值。令 \(\bm B=(\bm A-\alpha\bm I)^{-1}\),若 \(\lambda_1,\cdots,\lambda_n\) 是 \(\bm A\) 的特征值,\(\bm B\) 的特征值是
对应特征向量不变。假设 \(\alpha\) 最接近 \(\lambda_i\),\(1/(\lambda_i-\alpha)\) 将是 \(\bm B\) 的主特征值。对 \(\bm x_0\) 的几乎所有选择都会快速逼近 \(\lambda_i\)。
估计 \(\bm A\) 的特征值 \(\lambda\) 的逆幂法
\(1.\) 选择一个非常接近于 \(\lambda\) 的初始估值 \(\alpha\)。
\(2.\) 选择一个最大分量为 \(1\) 的初始向量 \(\bm x_0\)。
\(3.\) 对 \(k=0,1,2,\cdots\),
\(\quad\text{a.}\) 由 \((\bm A-\alpha\bm I)\bm y_k=\bm x_k\) 解出 \(\bm y_k\)。
\(\quad\text{b.}\) 设 \(\mu_k\) 是 \(\bm y_k\) 中绝对值最大的分量。
\(\quad\text{c.}\) 计算 \(v_k=\alpha+(1/\mu_k)\)。
\(\quad\text{d.}\) 计算 \(\bm x_{k+1}=(1/\mu_k)\bm y_k\)。
\(4.\) 几乎对所有 \(\bm x_0\),\(\{v_k\}\) 趋于 \(\bm A\) 的特征值 \(\lambda\),\(\{\bm x_k\}\) 趋于对应特征向量。
5.9 在马尔可夫链中的应用
马尔可夫链在多种领域中做数学模型,这里略过一些简单的实用性例子。
定义 \(\;\) 一个具有非负元素且各元素的数值相加等于 \(1\) 的向量称为概率向量。随机矩阵是各列向量均为概率向量的方阵。
马尔可夫链是一个概率向量序列 \(\bm x_0,\bm x_1,\cdots\) 和一个随机矩阵 \(\bm P\),满足
用一阶差分方程刻画:
\(\bm x_k\) 通常称为状态向量。
预言遥远的未来
马尔可夫链最有趣的方面是对该链长期行为的研究。
定理 9(随机矩阵)
如果 \(\bm P\) 是一个随机矩阵,那么 \(1\) 是 \(\bm P\) 的一个特征值。
\(\bm P^{T}\) 各行之和为 \(1\),\(\bm e\) 是各元素为 \(1\) 的向量,那么 \(\bm P^{T}\bm e=\bm e\),说明 \(\bm e\) 是 \(\bm P^{T}\) 的特征向量,对应特征值为 \(1\)。可以证明 \(\bm P\) 和 \(\bm P^T\) 有相同特征值,故 \(1\) 是 \(\bm P\) 的特征值。
稳态向量
随机矩阵 \(\bm P\) 的稳态向量(或平衡向量)是满足 \(\bm P\bm q=\bm q\) 的概率向量 \(\bm q\)。这说明 \(\bm q\) 是 \(1\) 的对应特征向量,而如何去求它是简单的。
我们称一个矩阵是正则的,如果矩阵的某次幂 \(\bm P^k\) 仅包含严格正的元素。
定理 10
如果 \(\bm P\) 是一个 \(n\times n\) 的正则随机矩阵,则 \(\bm P\) 具有唯一的稳态向量 \(\bm q\)。此外,若 \(\bm x_0\) 是任一个初始状态,且 \(\bm x_{k+1}=\bm P\bm x_k(k=0,1,2,\cdots)\),则 \(k\rightarrow\infty\) 时,马尔可夫链 \(\{\bm x_k\}\) 收敛到 \(\bm q\)。
它说明初始状态不影响马尔可夫链的长期行为。