微分方程、动力系统与混沌导论第5章高维线性代数[书摘]

第5章高维线性代数

与第2章一样，在试图求解高维线性微分方程系统之前，我们必须熟悉一下高维的线性代数。虽然在高维，矩阵的不同标准形个数变得多了，但在作坐标变换将矩阵化为标准形的过程中所用的代数思想大多都在$2\times 2$情形时出现过了。特别地，当矩阵具有不同(实的或复的)特征值时，除了增加很少的代数复杂性外，可以作类似处理，因而我们首先解决这种情形。在5.6节，我们会看到，这是一种“通有”情形。处理重特征值时需要用到更复杂的代数概念，相应的背景知识将在5.4节给出。

5.1 线性代数预备知识

主要内容包括：线性无关、线性相关、标准基、子空间、初等变换(每一个初等变换矩阵都是可逆的，这是因为将对应的初等变换逆向操作就可以得到它的逆。作为推论，初等矩阵的乘积都是可逆的。于是，如果将$\boldsymbol A$作初等变换化为行简化阶梯形(单位矩阵)的对应的初等矩阵记为$\boldsymbol {L_1,\cdots,L_n}$，则有$(\boldsymbol {L_n \cdots L_1}) = \boldsymbol A^{-1}$。即，如果对任意的$\boldsymbol V \in \mathbb R^n$，向量方程$\boldsymbol {AX} = \boldsymbol V$有唯一解，则$\boldsymbol A$可逆。这样就得到了我们第一个重要的结果。

命题设$\boldsymbol A$为一$n \times n$矩阵，则代数方程系统$\boldsymbol {AX} = \boldsymbol V$对任意$\boldsymbol V \in \mathbb R^n$都有唯一解当且仅当$\boldsymbol A$可逆。

5.2 特征值和特征向量

在第3章我们已经看到，特征值和特征向量在求解线性微分方程系统的过程中起到了至关重要的作用。

定义一个向量$\boldsymbol V$称为$n \times n$矩阵$\boldsymbol A$的一个特征向量，如果$\boldsymbol V$是线性方程组系统$(\boldsymbol A-\lambda \boldsymbol I)\boldsymbol V = 0$的一个非零解。其中的数量$\lambda$(并未说是实的!)称为$\boldsymbol A$的一个特征值，而称$\boldsymbol V$是属于(相应于)$\lambda$的一个(因为一个特征值可以对应多个)特征向量。

命题假设$\lambda_1,\cdots,\lambda_l$是$\boldsymbol A$的实不同特征值，$\boldsymbol V_1,\cdots,\boldsymbol V_l$为分别属于它们的特征向量，则$\boldsymbol V_j$是线性无关的。

当我们回头考虑微分方程时，重要的则是：

推论假设$\boldsymbol A$为$n \times n$矩阵，具有实不同特征值，则存在矩阵$\boldsymbol T$使得

\[\boldsymbol T^{-1}\boldsymbol {AT} = \left( \begin{array}{l}\lambda_1 \\ & \ddots \\ & & \lambda_n \end{array} \right),\]

其中对角线以外元素都是0。

证明设$\boldsymbol V_j$是属于$\lambda_j$的特征向量。定义线性映射$\boldsymbol T$使得$\boldsymbol {TE}_j = \boldsymbol V_j$，其中$\boldsymbol E_j$是$\mathbb R^n$的标准基。即$\boldsymbol T$是以$\boldsymbol {V_1,\cdots,V_n}$为列向量的矩阵。因为$\boldsymbol V_j$是线性无关的，故$\boldsymbol T$可逆，从而就有

\[(\boldsymbol {T^{-1}AT)E}_j = \boldsymbol {T^{-1}AV}_j = \lambda_j \boldsymbol {T^{-1}V}_j = \lambda_j \boldsymbol E_j.\]

即，$\boldsymbol {T^{-1}AT}$的第$j$列正好就是向量$\lambda_j\boldsymbol E_j$，这也就是我们要证的。

5.3 复特征值

现在我们来处理$\boldsymbol A$具有非实特征值的情形。假设$\alpha + \text i \beta$是$\boldsymbol A$的一个特征值，其中$\beta \ne 0$。由于$\boldsymbol A$的特征方程具有实系数，因而，如果$\alpha + \text i \beta$是一个特征值，则它的复共轭$\overline {\alpha + \text i \beta} = \alpha - \text i \beta$也是一个特征值。

现在假设$\boldsymbol A$是一个$2n \times 2n$矩阵，它具有不同的非实特征值$\alpha \pm \text i \beta,j=1,\cdots,n$，记$\boldsymbol V_j,\overline {\boldsymbol V_j}$为属于它们的特征向量。那么，与上节的命题一样，所有这些特征向量构成的向量组是线性无关的，即，如果有

\[\sum\limits_{j=1}^n(c_j\boldsymbol V_j + d_j\overline {\boldsymbol V_j}) = 0,\]

其中$c_j,d_j$现在为复数，则对所有的$j$，必有$c_j=d_j=0$。

现在我们来做坐标变换将$\boldsymbol A$化为标准形。令

\[\begin {array}{l}\boldsymbol W_{2j-1}&= \frac {1}{2}(\boldsymbol V_j + \overline {\boldsymbol V_j})\\ \boldsymbol W_{2j}&= \frac {-\text i}{2}(\boldsymbol V_j - \overline {\boldsymbol V_j}). \end{array}\]

注意这里$\boldsymbol W_{2j-1},\boldsymbol W_{2j}$都是实向量，事实上，$\boldsymbol W_{2j-1}$是$\boldsymbol V_j$的实部，而$\boldsymbol W_{2j}$是$\boldsymbol V_j$的虚部。利用$\boldsymbol W_j$进行操作就把我们又带回$\mathbb R^n$的世界。

命题向量组$\boldsymbol {W_1,\cdots,W_{2n}}$是线性无关的。

现在定义线性映射$\boldsymbol T$使得$\boldsymbol {TE_j = W_j},j=1,\cdots,2n$，即，与$\boldsymbol T$相关的矩阵的列向量为$\boldsymbol {W_1,\cdots,W_{2n}}$。可见，这个矩阵具有实元素。由于向量组$\boldsymbol W_j$是线性无关的，所以$\boldsymbol T$可逆，且有

\[\boldsymbol T^{-1}\boldsymbol {AT} = \left( \begin{array}{l}D_1 \\ & \ddots \\ & & D_n \end{array} \right),\]

其中$\boldsymbol D_j$为如下$2 \times 2$矩阵

\[\boldsymbol D_j = \left( \begin{array}{l} \alpha_j &\beta_j \\ -\beta_j & \alpha_j \end{array} \right).\]

这就是具有不同非实特征值矩阵的标准形(对角化后的形式)。

将本节和上节的结果结合起来，我们得到：

\[\boldsymbol T^{-1}\boldsymbol {AT} = \left( \begin{array}{l} \lambda_1 \\&\ddots \\ && \lambda_k \\ &&& D_1 \\ &&&& \ddots \\ &&&&& D_n \end{array} \right),\]

其中$\boldsymbol D_j$为如下$2 \times 2$矩阵

\[\boldsymbol D_j = \left( \begin{array}{l} \alpha_j &\beta_j \\ -\beta_j & \alpha_j \end{array} \right).\]

5.4 基和子空间

定义设$S$为$\mathbb R^n$的一个子空间，向量组$\boldsymbol V_1,\cdots,\boldsymbol V_k$称为$S$的一个基，如果这些$\boldsymbol V_j$是线性无关的并且张成$S$。

与平面情形一样，我们称一个函数$\boldsymbol T:\mathbb R^n \to \mathbb R^n$为线性的，如果存在一个$n \times n$矩阵$\boldsymbol A$使得$\boldsymbol {T(X) = AX}$；此时称$\boldsymbol T$为一个线性映射或线性变换。由矩阵的性质，对任意的$\alpha,\beta \in \mathbb R^n$，我们有，

\[\boldsymbol T(\alpha \boldsymbol X + \beta \boldsymbol Y) = \alpha \boldsymbol T(\boldsymbol X) + \beta \boldsymbol T(\boldsymbol Y).\]

我们称线性映射$\boldsymbol T$为可逆的，如果相应的矩阵$\boldsymbol A$可逆。

对于研究线性微分方程系统而言，最重要的子空间是线性映射的核和值域。所有被$\boldsymbol T$映射为0的向量构成的集合称为$\boldsymbol T$的核(可理解为将$\boldsymbol T$变换为0的向量构成的集合或空间)，记为$\text {Ker}\boldsymbol T$。$\boldsymbol T$的值域(可理解为$\boldsymbol T$所能张成的空间)(记为 $\text {Range}\boldsymbol T$)则由所有这样的向量$\boldsymbol W$构成：存在向量$\boldsymbol V$使得$\boldsymbol {TV} = \boldsymbol W$。

命题设$\boldsymbol T:\mathbb R^n \to \mathbb R^n$为一线性映射，则$\text {Ker}\boldsymbol T$和$\text {Range}\boldsymbol T$都是$\mathbb R^n$的子空间，而且有

\[\text {dim}\; \text {Ker}\boldsymbol T + \text {dim}\; \text {Range}\boldsymbol T = n.\]

命题的证明详见书本。注意核空间、值域空间、补空间、直和等之间的区别和联系。

5.5 重特征值

在本节中，我们来描述当矩阵有重特征值时的标准形。为了不在发展一般理论时花费过多的时间，我们将只对有重特征值的$3\times 3$和$4 \times 4$矩阵作详细讨论。关于具有重特征值矩阵最一般的结论是：

命题设$\boldsymbol A$为一个$n \times n$矩阵，则存在坐标变换$\boldsymbol T$使得

\[\boldsymbol T^{-1}\boldsymbol {AT} = \left( \begin{array}{l}B_1 \\ & \ddots \\ & & B_k \end{array} \right),\]

其中每个$\boldsymbol B_j$都是一个方阵(而其它所有的元素都是零)，它的形式为以下两者之一：

\[(\text i)\left( \begin{array}{l} \lambda&1 \\ & \lambda&1 \\ && \ddots & \ddots \\ &&& \ddots &1 \\ &&&& \lambda \end{array} \right)\;\;\;(\text {ii}) \left( \begin{array}{l} \boldsymbol C_2 & \boldsymbol I_2 \\ & \boldsymbol C_2 & \boldsymbol I_2 \\ && \ddots & \ddots \\ &&& \ddots & \boldsymbol I_2 \\ &&&& \boldsymbol C_2 \end{array} \right),\]

其中

\[\boldsymbol C_2 = \left( \begin{array}{l} \alpha & \beta \\ -\beta & \alpha \end{array} \right), \;\; \boldsymbol I_2 = \left( \begin{array}{l} 1 & 0\\ 0& 1 \end{array} \right), \]

并且这里的$\alpha,\beta,\lambda \in \mathbb R,\beta \ne 0$。此外，特别情形$\boldsymbol B_j = (\lambda)$或

\[\boldsymbol C_2 = \left( \begin{array}{l} \alpha & \beta \\ -\beta & \alpha \end{array} \right)\]

当然也是容许的。

先考虑$\mathbb R^3$的情形。如果$\boldsymbol A$在$\mathbb R^3$中具有重特征值，则所有的特征值都是实的(为什么呢？因为两重复根就是四维了)。此时有两种情形，要么有两个不同的特征值，其中一个是重的，要么所有的特征值都相同。前一种情形可以利用在第3章中所描述的类似过程进行处理，因而我们只关心$\boldsymbol A$仅有一个三得特征值$\lambda$的情形。

命题假设$\boldsymbol A$为一个$3 \times 3$矩阵，具有唯一的特征值$\lambda$。则可以找到坐标变换使得$\boldsymbol T^{-1} \boldsymbol {AT}$为下面的三种形式之一：

\[\text {(i)} \left( \begin{array}{l} \lambda & 0 & 0 \\ 0 & \lambda & 0 \\ 0 & 0 & \lambda \end{array} \right)\;\; \text {(ii)} \left( \begin{array}{l} \lambda & 1 & 0 \\ 0 & \lambda & 0 \\ 0 & 0 & \lambda \end{array} \right)\;\; \text {(iii)} \left( \begin{array}{l} \lambda & 1 & 0 \\ 0 & \lambda & 1\\ 0 & 0 & \lambda \end{array} \right).\]

证明详见书本。证明的过程说明了核和值域不一定是直和的关系，反而往往是真包含的关系。

5.6 通有性

我们已经提到过，“大多数”矩阵具有不同特征值，本节的目标就是使这句话严格化。

先复习$\mathbb R^n$中的一些拓扑概念。一个集合$\mathcal U \subset \mathbb R^n$称为开的，如果对任意$\boldsymbol X \in \mathcal U$，总有$\boldsymbol X$的一个开球包含在$\mathcal U$中，即，存在某个$a>0$(依赖于$\boldsymbol X$)，使得$\boldsymbol X$中半径为$a$的开球

\[\left\{\boldsymbol Y\in {{\mathbb R}^{n}} \left | \left| \boldsymbol Y-\boldsymbol X \right|<a \right. \right\}\]

包含在$\mathcal U$中。用几何语言，可以说成：如果$\boldsymbol X$属于开集$\mathcal U$，则充分靠近$\boldsymbol X$的点也在$\mathcal U$中(感觉是集合可以有限大，但又没有边界)。

$\mathbb R^n$中的另外一种子集是所谓的稠密集：$\mathcal U \subset \mathbb R^n$称为稠密的，如果$\mathbb R^n$中的每一个点都可以被$\mathcal U$中的点任意接近。精确地说，如果$\boldsymbol X \in \mathbb R^n$，则对于每一个$\epsilon > 0$，都存在某个$\boldsymbol Y \in \mathcal U$，使得$|\boldsymbol X - \boldsymbol Y| < \epsilon $。$\mathcal U$在$ \mathbb R^n$稠密的一个等价描述是：对于每一个非空开集$\mathcal V \subset \mathbb R^n$，$\mathcal V \cap \mathcal U$都是非空的。例如，全体有理数构成了$\mathbb R$的一个稠密子集，全体无理数也是如此。

$\mathbb R^n$中一类有趣的子集是所谓的既开又稠密的集合。这样的一个集合$\mathcal U$可以由如下的性质来刻画：$\mathcal U$的余集中的点可以被$\mathcal U$中的点任意逼近(因为$\mathcal U$为稠密)，但是$\mathcal U$没有点可以被$\mathcal U$的余集中的点任意逼近(因为$\mathcal U$是开集，能逼近$\mathcal U$中点的点都在$\mathcal U$中，挺拗口吧)。

下面的命题说明，开稠集是一种很“胖”的集合。

命题设$\mathcal V_1,\cdots,V_m$都是$\mathbb R^n$中的开稠集，则

\[\mathcal V = \mathcal V_1 \cap \cdots \cap \mathcal V_m\]

也是开稠的。

于是我们可以这样认为，$\mathbb R^n$中的子集如果含有一个开稠集，则它是大的。为了使“大多数”矩阵这一说法严格化，我们需要在所有矩阵的集合中引入开稠集的概念。记$L(\mathbb R^n)$为$n \times n$矩阵的集合，这也就是$\mathbb R^n$上所有线性映射的集合。

定理 $L(\mathbb R^n)$中由具有$n$个不同特征的矩阵所构成的集合$\mathcal M$在$L(\mathbb R^n)$中是开稠的。(证明详见书本)

矩阵的一个性质$\mathcal P$称为一个通有性质，如果具有性质$\mathcal P$的矩阵的集合包含$L(\mathbb R^n)$中的一个开稠集。从而，一个性质是通有的，如果矩阵的某一开稠集都这个性质(其它矩阵也可能具有)。直观地说，通有性质就是指“几乎所有”矩阵都具有的性质。从而，具有不同特征值是$n \times n$矩阵的一个通有性质。(意思是不必担心，因为多数情况下，方阵都具有不同的特征值，但具有重征值的矩阵也是无数的)

posted on 2013-11-22 21:52 湘厦人阅读(1297) 评论(0) 编辑收藏举报

刷新页面返回顶部

微分方程、动力系统与混沌导论第5章高维线性代数[书摘]

导航

公告

微分方程、动力系统与混沌导论 第5章 高维线性代数[书摘]

导航

公告

微分方程、动力系统与混沌导论第5章高维线性代数[书摘]