线性代数及其应用 第五章

第 5 章 特征值与特征向量

本章的目的是剖析线性变换 \(\bm A\mapsto\bm A\bm x\) 的作用,把它分解为容易理解的元素。出现矩阵均为方阵。

5.1 特征向量与特征值

定义 \(\;\) \(\bm A\)\(n\times n\) 矩阵,\(\bm x\) 为非零向量,若存在数 \(\lambda\) 使 \(\bm A\bm x=\lambda\bm x\) 有非平凡解 \(\bm x\),则称 \(\lambda\)\(\bm A\) 的特征值,\(\bm x\) 称为对应于 \(\lambda\) 的特征向量。

验证 \(\bm x\) 是否为 \(\bm A\) 的特征向量是简单的。若要验证 \(\lambda\) 是否为 \(\bm A\) 的特征值,只需求方程 \(\bm A\bm x=\lambda\bm x\) 是否有非平凡解。于是 \((\bm A-\lambda\bm I)\bm x=\bm0\),观察 \(\bm A-\lambda\bm I\) 的各列是否线性相关即可。如果是的话,解这个方程就能得出所有 \(\lambda\) 对应的特征向量。

方程 \((\bm A-\lambda\bm I)\bm x=\bm0\) 的解集就是矩阵 \(\bm A-\lambda\bm I\) 的零空间,它是 \(\mathbb{R}^n\) 的子空间,称为 \(\bm A\) 对应于 \(\lambda\)特征空间。特征空间由零向量和所有对应于 \(\lambda\) 的特征向量组成。

定理 1

三角形矩阵的主对角线的元素是其特征值。

假设 \(\bm A\)\(3\times 3\) 上三角形矩阵,则

\[\bm A-\lambda\bm I=\begin{bmatrix}a_{11}-\lambda&a_{12}&a_{13}\\0&a_{22}-\lambda&a_{23}\\0&0&a_{33}-\lambda\end{bmatrix} \]

当方程 \((\bm A-\lambda\bm I)\bm x=\bm0\) 存在非平凡解,主对角线元素至少有一个为零,当 \(\lambda\)\(a_{11},a_{22},a_{33}\) 满足条件,它们就是 \(\bm A\) 的特征值。\(\bm A\) 是下三角形矩阵是同理。得证。

\(0\)\(\bm A\) 的特征值当且仅当 \(\bm A\) 不可逆,也就是 \(\bm A\bm x=0\bm x=\bm0\) 有非平凡解。

定理 2

\(\lambda_1,\lambda_2,\cdots,\lambda_r\)\(n\times n\) 矩阵 \(\bm A\) 相异的特征值,\(\bm v_1,\bm v-2,\cdots,\bm v_r\) 是与 \(\lambda_1,\lambda_2,\cdots,\lambda_r\) 对应的特征向量,那么向量集合 \(\{\bm v_1,\bm v_2,\cdots,\bm v_r\}\) 线性无关。

反证法。假设 \(\{\bm v_1,\bm v_2,\cdots,\bm v_r\}\) 线性相关。\(\bm v_1\) 非零,令 \(p\) 是最小的满足 \(v_{p+1}\) 是前面向量的线性组合的下标。即存在 \(c_1,c_2,\cdots,c_p\) 满足

\[c_1\bm v_1+c_2\bm v_2+\cdots+c_p\bm v_p=\bm v_{p+1} \]

左右同乘 \(\bm A\)

\[c_1\lambda_1\bm v_1+c_2\lambda_2\bm v_2+\cdots+c_p\lambda_p\bm v_p=\lambda_{p+1}\bm v_{p+1} \]

将前式乘 \(\lambda_{p+1}\),作差可得

\[c_1(\lambda_1-\lambda_{p+1})\bm v_1+c_2(\lambda_2-\lambda_{p+1})\bm v_2+\cdots+c_p(\lambda_p-\lambda_{p+1})\bm v_p=\bm0 \]

因为 \(\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\) 线性无关,\(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}\) 相异,\(\forall i,c_i=0\),则 \(\bm v_{p+1}=\bm0\),矛盾。则 \(\{\bm v_1,\bm v_2,\cdots,\bm v_r\}\) 线性无关。得证。

特征向量与差分方程

对于一阶差分方程

\[\bm x_{k+1}=\bm A\bm x_k\quad(k=0,1,2,\cdots) \]

构造解的最简单方法是取 \(\bm A\) 的一个特征向量 \(\bm x_0\) 与其对应特征值 \(\lambda\),它的解就是

\[\bm x_k=\lambda^k\bm x_0\quad(k=1,2,\cdots) \]

5.2 特征方程

\(n\times n\) 矩阵 \(\bm A\) 的特征值,即求出所有 \(\lambda\) 使得 \(\det(\bm A-\lambda\bm I)=0\)。将行列式展开会得到关于 \(\lambda\) 的一个 \(n\) 次方程。称数值方程 \(\det(\bm A-\lambda\bm I)=0\)\(\bm A\)特征方程\(\det(\bm A-\lambda\bm I)=0\) 称为 \(\bm A\)特征多项式\(\lambda\)\(\bm A\) 的特征值的充要条件是 \(\lambda\) 是该方程的根。

\(\bm A=\begin{bmatrix}5&0&0&0\\0&3&0&0\\0&0&5&0\\0&0&0&1\end{bmatrix}\) 的特征方程是 \((5-\lambda)^2(3-\lambda)(1-\lambda)=0\),此时称特征值 \(5\) 有重数 \(2\)。把特征值 \(\lambda\) 作为特征方程根的重数称为 \(\lambda\)(代数)重数

相似性

下列定理说明了特征多项式的一个用途,为某些近似计算特征值的迭代算法提供了理论基础。

假设 \(\bm A,\bm B\)\(n\times n\) 矩阵,存在可逆矩阵 \(\bm P\) 使得 \(\bm P^{-1}\bm A\bm P=\bm B\)(等价地,\(\bm A=\bm P\bm B\bm P^{-1}\)),称 \(\bm A\) 相似于 \(\bm B\)。同时 \(\bm P\bm B\bm P^{-1}=\bm A\)\(\bm B\) 也相似于 \(\bm A\),说 \(\bm A\)\(\bm B\)相似的。把 \(\bm A\) 变成 \(P^{-1}\bm A\bm P\) 的变换称为相似变换

定理 3

\(n\times n\) 矩阵 \(\bm A\)\(\bm B\) 是相似的,那么它们有相同的特征多项式,从而有相同的特征值(和相同的重数)。

\(\bm B=\bm P^{-1}\bm A\bm P\),那么

\[\bm B-\lambda\bm I=\bm P^{-1}\bm A\bm P-\lambda\bm P^{-1}\bm P=\bm P^{-1}(\bm A-\lambda\bm I)\bm P \]

\[\begin{aligned}\det(\bm B-\lambda\bm I)&=\det(\bm P^{-1})\cdot\det(\bm A-\lambda\bm I)\cdot\det(\bm P)\\&=\det(\bm A-\lambda\bm I)\end{aligned} \]

一个广泛用来估计一般矩阵 \(\bm A\) 的特征值的方法是 \(\mathrm{QR}\) 算法。在适当条件下,它产生一个矩阵序列,其中矩阵全部相似于 \(\bm A\)。矩阵几乎是上三角的,并且把主对角线上的元素近似于 \(\bm A\) 的特征值。

其将 \(\bm A\)(或另一个与 \(\bm A\) 相似的矩阵)进行 \(\mathrm{QR}\) 分解,有 \(\bm A=\bm Q_1\bm R_1\)\(\bm Q_1^T=\bm Q_1^{-1}\)\(\bm R_1\) 是上三角矩阵,交换 \(\bm Q_1,\bm R_1\) 形成 \(\bm A_1=\bm R_1\bm Q_1\),然后对 \(\bm A_1\) 进行上述操作,依此类推。因为 \(\bm Q^{-1}\bm A\bm Q=\bm R\bm Q\)\(\bm A,\bm A_1,\cdots\) 是相似的。

应用到动力系统

\(\bm A=\begin{bmatrix}0.95&0.03\\0.05&0.97\end{bmatrix}\),分析由 \(\bm x_{k+1}=\bm A\bm x_{k}(k=0,1,2,\cdots),\bm x_0\begin{bmatrix}0.6\\0.4\end{bmatrix}\) 所确定的动力系统的长期发展趋势。


第一步解出 \(\bm A\) 的特征值 \(\lambda=1,0.92\),得到对应特征向量 \(\bm v_1=\begin{bmatrix}3\\5\end{bmatrix}\)\(\bm v_2=\begin{bmatrix}1\\-1\end{bmatrix}\)

第二步,\(\{\bm v_1,\bm v_2\}\)\(\mathbb{R^2}\) 的基,将 \(\bm x_0\) 表示为它们的线性组合:

\[\bm x_0=\begin{bmatrix}\bm v_1&\bm v_2\end{bmatrix}\begin{bmatrix}c_1\\c_2\end{bmatrix} \]

得到

\[\begin{bmatrix}c_1\\c_2\end{bmatrix}=\begin{bmatrix}\bm v_1&\bm v_2\end{bmatrix}^{-1}\bm x_0=\begin{bmatrix}0.125\\0.225\end{bmatrix} \]

那么

\[\begin{aligned}\bm x_k &=\bm A^k(c_1\bm v_1+c_2\bm v_2)\\&=c_1\bm v_1+c_2(0.92)^k\bm v_2\\&=0.125\begin{bmatrix}3\\5\end{bmatrix}+0.225(0.92)^k\begin{bmatrix}1\\-1\end{bmatrix}\end{aligned} \]

\(\bm x_k\) 的显式公式就是差分方程的解。容易得到

\[当 k\rightarrow\infty 时,\bm x_k\rightarrow\begin{bmatrix}0.375\\0.625\end{bmatrix} \]

5.3 对角化

分解式 \(\bm A=\bm P\bm D\bm P^{-1}\)\(\bm D\) 为对角矩阵)能够在 \(k\) 较大时快速计算 \(\bm A^k\),还能用于分析(解耦)动力系统。

计算 \(\bm D^k\) 是简单的。注意到 \(\bm A^k=(\bm P\bm D\bm P^{-1})^k=\bm P\bm D^k\bm P^{-1}\),这就使得计算更为简单了。

如果方阵 \(\bm A\) 相似于对角矩阵,即存在可逆矩阵 \(\bm P\) 和对角矩阵 \(\bm D\) 使得 \(\bm A=\bm P\bm D\bm P^{-1}\),称 \(\bm A\) 可对角化

定理 4(对角化定理)

\(n\times n\) 矩阵 \(\bm A\) 可对角化的充分必要条件是 \(\bm A\)\(n\) 个线性无关的特征向量。

事实上,\(\bm A=\bm P\bm D\bm P^{-1}\)\(\bm D\) 为对角矩阵的充分必要条件是 \(\bm P\) 的列向量是 \(\bm A\)\(n\) 个线性无关的特征向量。此时 \(\bm D\) 的主对角线上的元素分别是 \(\bm A\) 的对应于 \(\bm P\) 中特征向量的特征值。

换句话说,\(\bm A\) 可对角化的充要条件是有足够的特征向量形成 \(\mathbb{R}^n\) 的基,称为特征向量基

\(\bm P\) 是列为 \(\bm v_1,\cdots,\bm v_n\)\(n\times n\) 矩阵,\(\bm D\) 是对角线元素为 \(\lambda_1,\cdots,\lambda_n\) 的对角矩阵,则

\[\bm A\bm P=\begin{bmatrix}\bm A\bm v_1&\bm A\bm v_2&\cdots&\bm A\bm v_n\end{bmatrix} \]

\[\bm P\bm D=\begin{bmatrix}\lambda_1\bm v_1&\lambda_2\bm v_2&\cdots&\lambda_n\bm v_n\end{bmatrix} \]

假设 \(\bm A\) 可对角化且 \(\bm A=\bm P\bm D\bm P^{-1}\),则 \(\bm A\bm P\bm P\bm D\),可得

\[\forall i=1,2,\cdots,n,\bm A\bm v_i=\lambda_i\bm v_i \]

由于 \(\bm P\) 可逆,\(\bm v_1,\cdots,\bm v_n\) 线性无关。这说明 \(\lambda_1,\cdots,\lambda_n\) 是特征值,\(\bm v_1,\cdots,\bm v_n\) 为相应的特征向量。命题必要性得证,而充分性也是简单的。

矩阵的对角化

对角化工作分为以下四步:

\(1.\) 求出 \(\bm A\) 的特征值(可用计算机软件辅助)。

\(2.\) 求出 \(\bm A\)\(n\) 个线性无关的特征向量 \(\bm v_1,\cdots,\bm v_n\)。若不存在这样的 \(n\) 个向量则无法对角化。

\(3.\) 构造矩阵 \(\bm P=\begin{bmatrix}\bm v_1&\bm v_2&\cdots&\bm v_n\end{bmatrix}\)(向量的次序不重要)。

\(4.\) 用对应的特征值构造矩阵 \(\bm D\)。特征值的出现次数等于它的重数。

验证正确性,只需满足 \(\bm A\bm P=\bm P\bm D\)。注意 \(\bm P\) 应是可逆的。

定理 5

\(n\) 个相异特征值的 \(n\times n\) 矩阵可对角化。

定理 6

\(\bm A\)\(n\times n\) 矩阵,其相异的特征值是 \(\lambda_1,\lambda_2,\cdots,\lambda_p\)

\(\text{a}.\) 对于 \(1\le k\le p\)\(\lambda_k\) 的特征空间的维数小于或等于 \(\lambda_k\) 的代数重数。

\(\text{b}.\) 矩阵 \(\bm A\) 可对角化的充分必要条件是所有不同特征空间的维数之和为 \(n\)。即 \((\text{i})\) 特征多项式可完全分解为线性因子,\((\text{ii})\) 每个 \(\lambda_k\) 的特征空间的维数等于 \(\lambda_k\) 的代数重数。

\(\text{c}.\)\(\bm A\) 可对角化,\(\mathcal{B}_k\) 是对应于 \(\lambda_k\) 的特征空间的基,则 \(\mathcal{B}_1,\mathcal{B}_2,\cdots,\mathcal{B}_p\) 中所有向量的集合是 \(\mathbb{R}^n\) 的特征向量基。

5.4 特征向量与线性变换

我们研究线性变换 \(T:V\rightarrow V\) 的特征值和特征向量,\(V\) 为任意向量空间。

线性变换的特征向量

特征值和特征向量在 \(V\) 中的定义相当于在 \(\mathbb{R}^n\) 中的推广。

已知正弦波信号 \(\{s_k\}=\Big\{\cos(\dfrac{k\pi}{2})\Big\},k\in\mathbb{Z}\),左双移位线性变换 \(D\)\(D(\{x_k\})=\{x_{k+2}\}\) 定义。

\(\{y_k\}=D\{s_k\}\),利用三角函数公式可得 \(D\{s_k\}=\{-s_k\}=-\{s_k\}\),这说明 \(\{s_k\}\)\(D\) 的特征向量,其特征值为 \(-1\)

线性变换的矩阵

目前只考虑与有限维向量空间相关的线性变换和矩阵。

\(n\) 维向量空间 \(V\) 和线性变换 \(T:V\rightarrow V\),选择 \(V\) 的一组基 \(\mathcal{B}\)

\(\bm x\in V\),坐标向量 \([\bm x]_\mathcal{B},[T(\bm x)]_\mathcal{B}\in\mathbb{R}^n\)。设 \(\mathcal{B}=\{\bm b_1,\cdots,\bm b_n\}\)\(\bm x=r_1\bm b_1+\cdots+r_n\bm b_n\),那么

\[[\bm x]_\mathcal{B}=\begin{bmatrix}r_1\\r_2\\\vdots\\r_n\end{bmatrix} \]

\[T(\bm x)=r_1T(\bm b_1)+\cdots+r_nT(\bm b_n) \]

由于坐标映射是线性的:

\[[T(\bm x)]_\mathcal{B}=r_1[T(\bm b_1)]_\mathcal{B}+\cdots+r_n[T(\bm b_n)]_\mathcal{B} \]

改写为

\[[T(\bm x)]_\mathcal{B}=\bm M[\bm x]_\mathcal{B} \]

其中

\[\bm M=\begin{bmatrix}[T(\bm b_1)]_\mathcal{B}&\cdots&[T(\bm b_n)]_\mathcal{B}\end{bmatrix} \]

矩阵 \(\bm M\)\(T\) 的矩阵表示,称为 \(T\) 相对于基 \(\mathcal{B}\) 的矩阵

故就坐标向量而言,\(T\)\(\bm x\) 的作用相当于用矩阵 \(\bm M\) 左乘 \(\bm x\)

\(\mathbb{P}_2\rightarrow\mathbb{P}_2\) 的映射 \(T\)\(T(a_0+a_1t+a_2t^2)=a_1+2a_2t\) 是线性变换(\(T\) 是微分算子)。

若基 \(\mathcal{B}=\{1,t,t^2\}\),写出 \(T(1),T(t),T(t^2)\)\(\mathcal{B}-\) 坐标即可得到 \(T\)\(\mathcal{B}-\) 矩阵:

\[[T]_\mathcal{B}=\begin{bmatrix}[T(1)]_\mathcal{B}&[T(t)]_\mathcal{B}&[T(t^2)]_\mathcal{B}\end{bmatrix}=\begin{bmatrix}0&1&0\\0&0&2\\0&0&0\end{bmatrix} \]

对一般多项式 \(\bm p(t)=a_0+a_1t+a_2t^2\),可以验证

\[[T(\bm p)]_\mathcal{B}=[T]_\mathcal{B}[\bm p]_\mathcal{B} \]

\(\mathbb{R}^n\) 上的线性变换

定理 7(对角矩阵表示)

\(\bm A=\bm P\bm D\bm P^{-1}\)\(D\)\(n\times n\) 对角矩阵,若 \(\mathbb{R}^n\) 的基 \(\mathcal{B}\)\(\bm P\) 的列向量构成,那么 \(\bm D\) 是变换 \(\bm x\mapsto\bm A\bm x\)\(\mathcal{B}-\) 矩阵。

\(\mathcal{B}=\{\bm b_1,\bm b_2,\cdots,\bm b_n\}\)\(\bm P=[\bm b_1\bm b_2\cdots\bm b_n]\)。此时 \(\bm P\) 是 4.4 节中提到的坐标变换矩阵 \(\bm P_\mathcal{B}\),满足

\[\bm P[\bm x]_\mathcal{B}=\bm x\quad[\bm x]_\mathcal{B}=\bm P^{-1}\bm x \]

\(\bm x\in\mathbb{R}^n\)\(T(\bm x)=\bm A\bm x\),则

\[\begin{aligned} \left[T\right]_\mathcal{B} &=\left[\left[\bm A\bm b_1\right]_\mathcal{B}\cdots\left[\bm A\bm b_n\right]_\mathcal{B}\right] \\ &=\left[\bm P^{-1}\bm A\bm b_1\cdots\bm P^{-1}\bm A\bm b_n\right] \\ &=\bm P^{-1}\bm A\left[\bm b_1\cdots\bm b_n\right] \\ &=\bm P^{-1}\bm A\bm P \end{aligned} \]

由于 \(\bm A=\bm P\bm D\bm P^{-1}\)\([T]_\mathcal{B}=\bm P^{-1}\bm A\bm P=\bm D\)

此时 \(\bm x\mapsto\bm A\bm x\)\(\bm u\mapsto\bm D\bm u\) 是相对于不同基的同一个线性变换。

矩阵表示的相似性

上一定理的证明与 \(\bm D\) 是对角矩阵无关。因此只需 \(\bm A\) 相似于 \(\bm C\),即 \(\bm A=\bm P\bm C\bm P^{-1}\),且 \(\mathcal{B}\)\(\bm P\) 的列向量构成,\(\bm C\) 就是变换 \(\bm x\mapsto\bm A\bm x\)\(\mathcal{B}-\) 矩阵。

于是 \(\bm x\xrightarrow{乘以 \bm P^{-1}}[\bm x]_\mathcal{B}\xrightarrow{乘以 \bm C}[\bm A\bm x]_\mathcal{B}\xrightarrow{乘以\bm P}\bm A\bm x\)

反之,若 \(\mathbb{R}^n\rightarrow\mathbb{R}^n\) 的变换 \(T:T(\bm x)=\bm A\bm x\)\(\mathcal{B}\)\(\mathbb{R}^n\) 的任意一个基,则 \(T\)\(\mathcal{B}-\) 矩阵相似于 \(\bm A\),从定理 7 的计算中也能发现这一点。因此,所有相似于 \(\bm A\) 的矩阵的集合与变换 \(\bm x\mapsto\bm A\bm x\) 的所有矩阵表示的集合是相同的。

5.5 复特征值

考虑 \(n\times n\) 矩阵的特征方程的复根,从 \(\mathbb{R}^n\) 推广至 \(\mathbb{C}^n\)

对复特征值的研究能够揭示某些实矩阵中隐藏的信息。这些问题包括很多蕴涵周期运动的实动力系统、振动或空间的某种旋转。

假设 \(\bm A=\begin{bmatrix}0&-1\\1&0\end{bmatrix}\)\(\mathbb{R}^2\) 上的线性变换 \(\bm x\mapsto\bm A\bm x\) 将平面逆时针旋转 \(1/4\) 圈,其显然在 \(\mathbb{R}^2\) 中无特征向量。已知其特征方程

\[\lambda^2+1=0 \]

只有复根 \(\lambda=\pm i\)。让 \(\bm A\) 作用于 \(\mathbb{C}^2\),可以得到 \(i\)\(-i\) 是特征值,\(\begin{bmatrix}1\\-i\end{bmatrix}\)\(\begin{bmatrix}1\\i\end{bmatrix}\) 是对应的特征向量。

\(\bm A=\begin{bmatrix}0.5&-0.6\\0.75&1.1\end{bmatrix}\),求其特征值及每个特征空间的基。


由行列式容易解得 \(\lambda=0.8\pm0.6i\),对 \(\lambda=0.8-0.6i\),有

\[\bm A-\lambda\bm I=\begin{bmatrix}-0.3+0.6i&-0.6\\0.75&0.3+0.6i\end{bmatrix} \]

其给出了两个 \(x_1\)\(x_2\) 之间的等式。实际上它们一定描述同一个关系,由 \(0.75x_1+(0.3+0.6i)x_2=0\),可得其对应特征空间的基为 \(\begin{bmatrix}-2-4i\\5\end{bmatrix}\),对于另一个特征值也用相同的方法即可,而验算结果是否正确是较为简单的。

向量的实部和虚部

向量 \(\operatorname{Re}\bm x\)\(\operatorname{Im}\bm x\) 称为复向量 \(\bm x\)实部虚部,有

\[\bm x=\operatorname{Re}\bm x+i\operatorname{Im}\bm x \]

复数的共轭运算性质对复矩阵代数是成立的。

作用于 \(\mathbb{C}^n\) 上的实矩阵的特征值和特征向量

\(\bm A\)\(n\times n\) 实矩阵,则 \(\overline{\bm A\bm x}=\bm A\overline{\bm x}\)。若 \(\lambda\)\(\bm A\) 的特征值,\(\bm x\) 是对应特征向量,则

\[\bm A\overline{x}=\overline{\bm A\bm x}=\overline{\lambda\bm x}=\overline{\lambda}\cdot\overline{\bm x} \]

\(\overline{\lambda}\)\(\bm A\) 的特征值,\(\overline{\bm x}\) 是对应特征向量。这表明当 \(\bm A\) 是实矩阵时,其复特征值以共轭复数对出现。

设非零实矩阵 \(\bm C=\begin{bmatrix}a&-b\\b&a\end{bmatrix}\),它的特征值是 \(\lambda=a\pm bi\),设 \(r=|\lambda|=\sqrt{a^2+b^2}\)\(\varphi\)\(\lambda\) 的辐角,有

\[\bm C=r\begin{bmatrix}a/r&-b/r\\b/r&a/r\end{bmatrix}=\begin{bmatrix}r&0\\0&r\end{bmatrix}\begin{bmatrix}\cos\varphi&-\sin\varphi\\\sin\varphi&\cos\varphi\end{bmatrix} \]

变换 \(\bm x\mapsto\bm C\bm x\) 可视为旋转 \(\varphi\) 和倍乘 \(|\lambda|\) 的复合。

接着用前面的例子来揭示有复特征值的实矩阵中隐含的旋转:

\[\bm A=\begin{bmatrix}0.5&-0.6\\0.75&1.1\end{bmatrix},\lambda=0.8-0.6i,\bm v=\begin{bmatrix}-2-4i\\5\end{bmatrix} \]

\(2\times 2\) 实矩阵 \(\bm P,\bm C\)

\[\bm P=\begin{bmatrix}\operatorname{Re}\bm v&\operatorname{Im}\bm v\end{bmatrix}=\begin{bmatrix}-2&-4\\5&0\end{bmatrix} \]

\[\bm C=\bm P^{-1}\bm A\bm P=\begin{bmatrix}0.8&-0.6\\0.6&0.8\end{bmatrix} \]

可得

\(\bm A=\bm P\begin{bmatrix}0.8&-0.6\\0.6&0.8\end{bmatrix}\bm P^{-1}\)。旋转产生的是椭圆,因为由 \(\bm P\) 的列确定的坐标系不是长方形的,在两个轴上没有相等的单位长。

定理 8

\(2\times 2\) 实矩阵 \(\bm A\) 有复特征值 \(\lambda=a-bi(b\ne0)\) 及对应的 \(\mathbb{C}^2\) 中复特征向量 \(\bm v\),那么

\[\bm A=\bm P\bm C\bm P^{-1} \]

其中

\[\bm P=\begin{bmatrix}\operatorname{Re}\bm v&\operatorname{Im}\bm v\end{bmatrix},\bm C=\begin{bmatrix}a&-b\\b&a\end{bmatrix} \]

首先 \(\operatorname{Re}\bm v\)\(\operatorname{Im}\bm v\) 显然是线性无关的,\(\bm A(\operatorname{Re}\bm v)=\operatorname{Re}\bm A\bm x\)\(\bm A(\operatorname{Im}\bm x)=\operatorname{Im}\bm A\bm x\)\(\bm A\bm v=\lambda\bm v\),于是考虑证明 \(\bm A\bm P=\bm P\bm C\)

\[\begin{aligned} \bm A\bm P &=\begin{bmatrix}\bm A\operatorname{Re}\bm v&\bm A\operatorname{Im}\bm v\end{bmatrix} \\ &=\begin{bmatrix}\operatorname{Re}\lambda\bm v&\operatorname{Im}\lambda\bm v\end{bmatrix} \\ &=\begin{bmatrix}a\operatorname{Re}\bm v+b\operatorname{Im}\bm v&-b\operatorname{Re}\bm v+a\operatorname{Im}\bm v\end{bmatrix} \\ &=\bm P\bm C \end{aligned} \]

得证。

5.6 离散动力系统

在 5.2 节中有简单提到。

生态问题比物理或工程上的问题更容易描述和解释。控制系统中的稳态响应在工程上等价于动力系统 \(\bm x_{k+1}=\bm A\bm x_k\) 的长期行为。

假设 \(\bm A\) 可对角化,有 \(n\) 个线性无关的特征向量 \(\bm v_1,\cdots,\bm v_n\) 和对应特征向量 \(\lambda_1,\cdots,\lambda_n\)(为了方便,令 \(|\lambda_i|\) 单调不升)。

对于初始向量 \(\bm x_0=c_1\bm v_1+\cdots+c_n\bm v_n\),有

\[\bm x_k=c_1(\lambda_1)^k\bm v_1+\cdots+c_n(\lambda_n)^k\bm v_n \]

若仅 \(i=1\) 时满足 \(|\lambda_1|\ge1\)\(c_1\ne0\),对足够大的 \(k\)

\[\bm x_{k+1}\approx\lambda_1\bm x_k \]

\[\bm x_k\approx c_1(\lambda_1)^k\bm v_1 \]

解的几何意义

对于 \(2\times 2\) 对角矩阵 \(\bm A\),画出动力系统 \(\bm x_{k+1}=\bm A\bm x_k\) 的若干条轨迹(由 \(\bm x_0,\bm x_1,\bm x_2,\cdots\) 组成的图形)。

  • 当两个特征值的绝对值均小于 \(1\),轨迹趋于原点,称为动力系统的吸引子。过原点且特征值绝对值最小的特征向量 \(\bm v_2\) 的直线的方向是最大吸引方向。

  • 当两个特征值的绝对值均大于 \(1\),轨迹远离原点,称为动力系统的排斥子。过原点且特征值绝对值最大的特征向量 \(\bm v_1\) 的直线的方向是最大排斥方向。

  • 当两个特征值的绝对值分别 \(>1\)\(<1\),原点在某些方向有吸引解,某些方向有排斥解,称为鞍点。最大吸引、排斥方向同上。

在线性动力系统中只有原点可能是吸引子或排斥子,而在非线性的更一般的动力系统中可能存在多个吸引子和排斥子。

显然对于一般的 \(\bm A\),若其可对角化,动力系统的轨迹的区别在于用特征向量代替了标准基(以它们为坐标轴)。

\(\bm A\) 有两个绝对值(模)小于 \(1\) 的复特征值,原点是排斥子,\(\bm x_0\) 的迭代绕原点向外作螺旋线旋转。若都小于 \(1\),原点是吸引子,\(\bm x_0\) 的迭代绕原点向内作螺旋线旋转。

5.7 在微分方程中的应用

在很多应用问题中,某些量随时间连续变化,与下列微分方程组有关:

\[\begin{aligned} x_1' &= a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n \\ x_2' &= a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n \\ \vdots & \\ x_n' &= a_{n1}x_1+a_{n2}x_2+\cdots+a_{nn}x_n \end{aligned} \]

\(x_i\) 是关于 \(t\) 的可导函数,\(a_{ij}\) 为常数,将其写成矩阵微分方程

\[\bm x'(t)=\bm A\bm x(t) \]

其中

\[\bm x(t)=\begin{bmatrix}x_1(t)\\x_2(t)\\\vdots\\x_n(t)\end{bmatrix},\bm A=\begin{bmatrix}a_{11}a_{12}&\cdots&a_{1n}\\a_{21}a_{22}&\cdots&a_{2n}\\\vdots&\ddots&\vdots\\a_{n1}a_{n2}&\cdots&a_{nn}\end{bmatrix} \]

方程显然是线性的,其解为向量值函数,定义在某实数区间。若 \(\bm u\)\(\bm v\) 都是解,\(c\bm u+d\bm v\) 也是方程的解。

零函数也是方程的(平凡)解。方程的解集是值属于 \(\mathbb{R}^n\) 的所有连续函数组成的集合的子空间。

微分方程相关的教材证明了方程存在基础解系,它是解集的基,那么解集就是函数的 \(n\) 维向量空间。

若给定向量 \(\bm x_0\)初值问题就是构造一个(唯一)函数 \(\bm x\),满足 \(\bm x'=\bm A\bm x\)\(\bm x(0)=\bm x_0\)

\(\bm A\) 是对角矩阵,例如:

\[\begin{bmatrix}x_1'(t)\\x_2'(t)\end{bmatrix}=\begin{bmatrix}3&0\\0&-5\end{bmatrix}\begin{bmatrix}x_1(t)\\x_2(t)\end{bmatrix} \]

则有 \(x_1'(t)=3x_1(t)\)\(x_2'(t)=-5x_2(t)\),每个函数的导数依赖于其本身,称它是解耦的

关于函数的求解与动力系统的解耦需要微积分知识,暂且略过。

5.8 特征值的迭代估计

幂算法

适用于 \(n\times n\) 矩阵 \(\bm A\)严格占优特征值(或主特征值\(\lambda_1\) 的情况,意思是其绝对值比其他特征值都大。该算法产生一个近似 \(\lambda_1\) 的数列和一个近似对应的主特征向量的向量序列。

简单起见,令 \(\bm A\) 可对角化,\(\lambda_1\) 是主特征值,有

\[|\lambda_1|>|\lambda_2|\ge|\lambda_3|\ge\cdots\ge|\lambda_n| \]

显然地,

\[\bm A^k\bm x=c_1(\lambda_1)^k\bm v_1+\cdots+c_n(\lambda_n)^k\bm v_n\quad(k\in\mathbb{N}^+) \]

假设 \(c_1\ne0\)

\[\frac{1}{(\lambda_1)^k}\bm A^k\bm x=c_1\bm v_1+c_2(\frac{\lambda_2}{\lambda_1})^k\bm v_2+\cdots+c_n(\frac{\lambda_n}{\lambda_1})^k\bm v_n \]

则当 \(k\rightarrow\infty\) 时,

\[(\lambda_1)^{-k}\bm A^k\bm x\rightarrow c_1\bm v_1 \]

\(\bm A^k\)\(\bm v_1\) 所在直线见夹角趋于零。

若对 \(\bm A^k\bm x\) 进行倍乘使其最大分量为 \(1\),则所得序列 \(\{\bm x_k\}\) 收敛于 \(\bm v_1\) 的倍数,它的最大分量也是 \(1\)

\(\bm x_k\) 接近 \(\bm v_1\) 时,\(\bm A\bm x_k\) 接近 \(\lambda_1\bm x_k\)\(\bm A\bm x_k\) 的最大分量接近 \(\lambda_1\)

估计严格占优特征值的幂算法

\(1.\) 选择一个最大分量为 \(1\) 的初始向量 \(\bm x_0\)

\(2.\)\(k=0,1,2,\cdots,\)

\(\quad\text{a}.\) 计算 \(\bm A\bm x_k\)

\(\quad\text{b}.\)\(\mu_k\)\(\bm A\bm x_k\) 中绝对值最大的一个分量。

\(\quad\text{c}.\) 计算 \(\bm x_{k+1}=(1/\mu_k)\bm A\bm x_k\)

\(3.\) 几乎对所有选择的 \(\bm x_0\),序列 \(\{\mu_k\}\) 近似于主特征值,而序列 \(\{\bm x_k\}\) 近似于对应的特征向量。

序列的收敛速度取决于 \(|\lambda_2/\lambda_1|\)

若随机的 \(\bm x_0\) 使得 \(c_1=0\),计算时的舍入误差可能使得所产生向量在 \(\bm v_1\) 上存在分量,最终 \(\{\bm x_k\}\) 收敛于 \(\bm v_1\) 的倍数。

逆幂法

\(\bm A\) 有特征值 \(\lambda\) 和对应特征向量 \(\bm v\)\(\alpha\) 不是 \(\bm A\) 的特征值:

\[\begin{aligned} \bm A\bm v-\alpha\bm v &= \lambda\bm v-\alpha\bm v\\ (\bm A-\alpha\bm I)\bm v&=(\lambda-\alpha)\bm v\\ (\bm A-\alpha\bm I)^{-1}\bm v&=\frac{1}{\lambda-\alpha}\bm v \end{aligned} \]

在知道特征值 \(\lambda\) 的一个较好的初始估值 \(\alpha\) 后,逆幂法也用来对任意特征值做近似估值。令 \(\bm B=(\bm A-\alpha\bm I)^{-1}\),若 \(\lambda_1,\cdots,\lambda_n\)\(\bm A\) 的特征值,\(\bm B\) 的特征值是

\[\frac{1}{\lambda_1-\alpha},\cdots,\frac{1}{\lambda_n-\alpha} \]

对应特征向量不变。假设 \(\alpha\) 最接近 \(\lambda_i\)\(1/(\lambda_i-\alpha)\) 将是 \(\bm B\) 的主特征值。对 \(\bm x_0\) 的几乎所有选择都会快速逼近 \(\lambda_i\)

估计 \(\bm A\) 的特征值 \(\lambda\) 的逆幂法

\(1.\) 选择一个非常接近于 \(\lambda\) 的初始估值 \(\alpha\)

\(2.\) 选择一个最大分量为 \(1\) 的初始向量 \(\bm x_0\)

\(3.\)\(k=0,1,2,\cdots\)

\(\quad\text{a.}\)\((\bm A-\alpha\bm I)\bm y_k=\bm x_k\) 解出 \(\bm y_k\)

\(\quad\text{b.}\)\(\mu_k\)\(\bm y_k\) 中绝对值最大的分量。

\(\quad\text{c.}\) 计算 \(v_k=\alpha+(1/\mu_k)\)

\(\quad\text{d.}\) 计算 \(\bm x_{k+1}=(1/\mu_k)\bm y_k\)

\(4.\) 几乎对所有 \(\bm x_0\)\(\{v_k\}\) 趋于 \(\bm A\) 的特征值 \(\lambda\)\(\{\bm x_k\}\) 趋于对应特征向量。

5.9 在马尔可夫链中的应用

马尔可夫链在多种领域中做数学模型,这里略过一些简单的实用性例子。

定义 \(\;\) 一个具有非负元素且各元素的数值相加等于 \(1\) 的向量称为概率向量随机矩阵是各列向量均为概率向量的方阵。

马尔可夫链是一个概率向量序列 \(\bm x_0,\bm x_1,\cdots\) 和一个随机矩阵 \(\bm P\),满足

\[\bm x_1=\bm P\bm x_0,x_2=\bm P\bm x_1,\cdots \]

用一阶差分方程刻画:

\[\bm x_{k+1}=\bm P\bm x_k\quad(k=0,1,2,\cdots) \]

\(\bm x_k\) 通常称为状态向量

预言遥远的未来

马尔可夫链最有趣的方面是对该链长期行为的研究。

定理 9(随机矩阵)

如果 \(\bm P\) 是一个随机矩阵,那么 \(1\)\(\bm P\) 的一个特征值。

\(\bm P^{T}\) 各行之和为 \(1\)\(\bm e\) 是各元素为 \(1\) 的向量,那么 \(\bm P^{T}\bm e=\bm e\),说明 \(\bm e\)\(\bm P^{T}\) 的特征向量,对应特征值为 \(1\)。可以证明 \(\bm P\)\(\bm P^T\) 有相同特征值,故 \(1\)\(\bm P\) 的特征值。

稳态向量

随机矩阵 \(\bm P\)稳态向量(或平衡向量)是满足 \(\bm P\bm q=\bm q\) 的概率向量 \(\bm q\)。这说明 \(\bm q\)\(1\) 的对应特征向量,而如何去求它是简单的。

我们称一个矩阵是正则的,如果矩阵的某次幂 \(\bm P^k\) 仅包含严格正的元素。

定理 10

如果 \(\bm P\) 是一个 \(n\times n\) 的正则随机矩阵,则 \(\bm P\) 具有唯一的稳态向量 \(\bm q\)。此外,若 \(\bm x_0\) 是任一个初始状态,且 \(\bm x_{k+1}=\bm P\bm x_k(k=0,1,2,\cdots)\),则 \(k\rightarrow\infty\) 时,马尔可夫链 \(\{\bm x_k\}\) 收敛到 \(\bm q\)

它说明初始状态不影响马尔可夫链的长期行为。

posted @ 2024-07-25 21:46  SError  阅读(8)  评论(0编辑  收藏  举报