【高等代数】05 - 线性变换

合集 - 高等代数(15)

14.【高等代数】05 - 线性变换2021-02-22

15.【高等代数】06 - 线性函数2021-05-22

　　线性变换是线性代数的核心概念，包含的内容和结论十分丰富。之前的讨论其实已经比较完备了，但这里我还是想把它的主要脉络再梳理一遍，然后再补充一些重要的问题和结论。

1. 线性变换和不变子空间

1.1 线性变换

　　线性变换 $A α$ （或线性映射）的概念自无需多说，它是线性空间 $V$ 之间的一种映射关系。而映射最重要的概念就是象和原象，尤其是变换的象 $A V$ 与核 $Ker A$ ，通过关系式（1）搭建起了变换 $A$ 的基本机构。它直观地描述了线性变换在维度上的意义，你可以轻松说出 $V, Ker A, A V$ 三者之间的关系。更甚地，可以把 $V$ 表示成某个直交和 $Ker A \oplus U$ ，而这里 $U$ 必定与 $A V$ 同构。这个简单的关系很容易被忽略，但它在复合变换的论证中起到了核心的作用，比如关于复合变换的秩（象的维数）的估算，再比如后面关于幂零变换的归纳法证明。

$\begin{matrix} (1) & V / Ker A ≅ A V \end{matrix}$

　　式（1）说明，变换使得 $V$ 的维数减少了 $dim (Ker A)$ ，这个角度非常便于讨论复合变换的秩。对于复合变换 $AB$ ，它的秩显然有上界 $max {rank A, rank B}$ 。从维度减少的角度，不难有式（2）的上界式，从而轻松得到复合变换秩的下界式（3）。使用这个角度，你可以尝试一下下面的两个问题。

$\begin{matrix} (2) & dim (Ker AB) ⩽ dim (Ker A) + dim (Ker B) \end{matrix}$

$\begin{matrix} (3) & rank (AB) ⩾ rank A + rank B - dim (V) \end{matrix}$

　　• 如果 $rank (AB) = rank (B)$ ，则对任意变换 $C$ 都有 $rank (ABC) = rank (BC)$ 。

　　• Frobenius不等式： $rank (ABC) ⩾ rank (AB) + rank (BC) - rank (B)$ 。

　　我们知道，任何一个线性变换 $A \in Hom (V, V)$ ，都可以由某组基 ${α_{i}}$ 以及它们的象完全确定，并由此得到了这组基下的变换矩阵 $A$ 。为了让矩阵运算和变换运算的格式保持一致，把 $a_{i j}$ 定义成 $A α_{j}$ 在 $α_{i}$ 上的坐标。如果再把所有向量 $α$ 映射成坐标列向量 $a$ ， $A α$ 的象就是 $A a$ ，而变换 $AB$ 的矩阵也正好是 $A B$ ，这样使用起来就方便多了（后面将不加区分地写成 $A$ ）。值得提醒的是，变换矩阵是线性变换的一种表示形式，可以更方便地讨论变换的性质；但其并不能完全替代后者，有时反而会让叙述变得繁琐（比如矩阵秩的讨论）。

1.2 不变子空间和最小多项式

　　线性变换没有线性映射那样简单的标准式（基于式（1）），因为它的原象和象纠缠在一起（在一个空间）。我们能做的就是找到合适的基，让它们的象和原象划分到尽量多的子空间中，这就是不变子空间的概念（简称 $A$ -子空间）。为了能将 $V$ 划分成多个不变子空间，需要用到两个关键的结论。第一个是如果有 $A B = B A$ ，那么 $B V, Ker B$ 都是 $A$ -子空间。特别地，任何多项式 $f (A) \in F [A]$ 都与 $A$ 可交换，因此 $Ker f (A)$ 都是 $A$ -子空间。如果有式（4）左的互质分解，根据多项式的欧几里得定理，不难有式（4）右的分割。

$\begin{matrix} (4) & f (x) = g (x) h (x), (g, h) = 1 \Rightarrow Ker f (A) = Ker g (A) \oplus Ker h (A) \end{matrix}$

　　第二个是Hamilton-Caylay定理， $A$ 的特征多项式 $φ (λ)$ 满足 $φ (A) = 0$ ，即它是一个零化多项式。零化多项式的存在，使得式（4）右的分割可以从整个线性空间 $V$ 开始。也就是说，如果零化多项式有互质分解 $\prod g_{i} (x)$ ，那么 $V$ 可以拆分为线性无关的子空间和 $\oplus Ker g_{i} (A)$ 。为了让问题更简单，我们一般用次数最小的首1零化多项式，即最小多项式 $m (x)$ 。根据多项式理论不难证明， $m (x)$ 能整除所有零化多项式。

　　另外，零化（最小）多项式的概念也可以定义在单个向量、向量集或子空间上，而且显然 $V$ 的零化多项式一定是它（们）的零化多项式。特别地，特征值 $λ_{i}$ 的特征子空间 $V_{i}$ 以 $(λ - λ_{i})$ 为其最小多项式 $m_{i} (x)$ ，而 $m (x)$ 是 $V_{i}$ 的零化多项式，故而 $m_{i} (x) | m (x)$ ，这说明 $m (x)$ 含有（复数域上）所有特征项 $(λ - λ_{i})$ 因子。得到零化多项式最直接的方法，当然是求解以多项式系数为未知数的线性方程组。这个方法没有多大实际意义，但却可以间接说明，一定存在 $V$ 的域 $F$ 上的解（如果有复数解），从而扩张域 $F$ 并不会带来新的最小多项式。

　　假设 $m (x)$ 有式（5）左的互质分解，则线性空间可以有右式的直和分解， $V$ 的任何向量 $α$ 都可以分解为其在 $Ker p_{i} (x)$ 中的投影 $P_{i} (α)$ 的直和。但要注意对一个子空间 $U$ 而言，却不能说可以分解为 $P_{i} (U)$ 的直和，直和包含但往往大于 $U$ 。当 $U$ 是 $A$ -子空间时，利用多项式的互质化1性质，不难构造出 $P_{i}$ 是 $A$ 的一个多项式。这时 $U$ 也是 $P_{i}$ 的不变子空间， $P_{i} (U)$ 的直和又包含于 $U$ ，故而两者是相等的。另外不难看出 $P_{i} (U)$ 就是 $U \cap W_{i}$ ，故而不变子空间都有式（6）的直和分解，这就得到结论： $W_{i}$ 不变子空间的直和构成了全部 $A$ -子空间。

　　特别地，如果最小多项式 $m (x) = \prod (λ - λ_{i})$ 都是一阶一次的，由核分解法（5）知 $V$ 可以被分解为特征空间之和，从而 $A$ 可对角化。反之亦成立，故有 $A$ 可对角化等价于 $m (x)$ 由一次一阶因式组成，这是个极其有效的判断可对角化工具。另外，结合式（6）的结论可知：可对角化变换 $A$ 的任意特征向量的直和，构成了全部 $A$ -子空间。

$\begin{matrix} (5) & m (x) = p_{1} (x) \dots p_{r} (x) \Rightarrow V = Ker p_{1} (x) \oplus \dots \oplus Ker p_{r} (x) \end{matrix}$

$\begin{matrix} (6) & U = (U \cap W_{1}) \oplus \dots \oplus (U \cap W_{r}), W_{i} = Ker p_{i} (x) \end{matrix}$

　　在得到更深入的结论之前，我们先来开个脑洞。假设变换 $A$ 的最小多项式 $p (λ)$ 是 $r$ 阶不可约的，根据多项式的理论， $F [A]$ 是一个以 $p (A)$ 为0元的域。而回顾线性空间的定义，它可以建立在任何域上（不限定是数域），如果把 $f (A) α$ 视为域 $F (A)$ 上的纯量乘法，则 $V$ 也可以看成域 $F (A)$ 上的线性空间！只是要注意， $F [A]$ 在原始域上的维度是 $r$ ，所以 $V$ 在域 $F [A]$ 上是 $\frac{n}{r}$ 维的。这个神奇的角度可以让变换 $f (A)$ 如纯量一样自由使用，带来许多意想不到的效果，以下先举一例，本篇的最后会再次用到。

　　任何子空间都有补空间，但任何 $A$ -子空间却不一定有 $A$ -补空间。比如幂次为 $r > 1$ 的幂零变换 $A$ ，它有非平凡的 $A$ -子空间 $U = Ker (A^{r - 1})$ ，任何子空间的象都是探索到 $U$ 里。所以 $U$ 的 $A$ -补空间 $W \neq 0$ 必须满足 $A W = 0$ ，故 $W \subseteq U$ ，导致矛盾。这个结论能扩展到更一般都情况，对于满足 $g^{r} (A) = 0, (r > 1)$ 的变换，非平凡 $A$ -子空间 $g (A) V$ 没有 $A$ -补空间。如果要求所有 $A$ -子空间都有 $A$ -不空间（称为半单变换），则最小多项式所有项的幂次必须为1（否则可以构造出如上的 $g (λ)$ ）。

　　反之，对于 $m (λ) = \prod p_{i} (λ)$ 的变换（ $p_{i} (λ)$ 互质不可约），先将 $V$ 分解为 $W_{i} = Ker p_{i} (A)$ 的直和，并记 $A_{i} = A ∣ W_{i}$ 。根据式（6）有任意 $A$ -子空间 $U$ 都由 $U_{i} = U \cap W_{i}$ 直交而成，为了找到 $U_{i}$ 在 $W_{i}$ 上的 $A$ -补空间，把 $W_{i}$ 看成域 $F [A_{i}]$ 上的线性空间。由于 $W_{i}, U$ 都是 $f (A) \in F [A]$ 的不变子空间，故 $U_{i}$ 也是 $W_{i}$ 在域 $F [A_{i}]$ 上的子空间，取它的补空间 $G_{i}$ ，它显然是个 $A$ -子空间。所以在原始域上， $U_{i}$ 总有 $A$ -补空间 $G_{i}$ ，这时 $G = \oplus G_{i}$ 就是 $U$ 的 $A$ -补空间。总结便有：半单变换的充要条件是最小多项式的不可约项都是1次的。

2. 线性空间的分解

2.1 复数域上的分解

　　复数域上的特征多项式都可以分解为一阶多项式幂 $(λ - λ_{i})^{l_{i}}$ 的乘积（ $l_{i}$ 叫 $λ_{i}$ 的代数重数），从而 $V$ 可以先被分解为若干 $A$ -子空间 $W_{i} = Ker (A - λ_{i} I)^{l_{i}}$ 的直和。为了方便深入讨论（分解）这样的 $A$ -子空间，记 $A - λ_{i} I$ 在 $W_{i}$ 上的变换为 $A_{0}$ 。显然 $A_{0}$ -子空间也是 $A$ -子空间，而且 $A_{0}$ 是幂零变换（ $A_{0}^{s} = 0, s ⩽ l_{i}$ ）(取最小的 $s$ 叫做 $λ_{i}$ 的几何重数）），下面只需集中讨论 $W_{i}$ 在 $A_{0}$ 上的分解。

　　对于任何 $α \in W_{i}$ ，都存在 $A_{0}^{t} α = 0, (t ⩽ s)$ ，由此生成强循环子空间 $⟨ α, \dots, A_{0}^{t - 1} α ⟩$ 。显然，它的特征多项式和最小多项式都是 $λ^{t}$ ，而且不能再分割为两个不变子空间。幂零变换下的不可再分割的不变子空间，想必都是这样的强循环子空间，而 $W_{i}$ 应当可以被分解为若干强循环子空间。但简单尝试后发现，从局部开始分割出这些链条是不太可能的（无法解决链条缠绕问题）。另外注意到，每个链条的最后一环 $A_{0}^{t - 1} α$ 都是 $0$ 特征向量，它们组成了核空间 $K_{0} = Ker A_{0}$ 。接下来可以在 $K_{0}$ 上使用式（1）降维处理，并通过递归论证找到分解的方法，以下具体讨论。

　　考察 $A_{0}$ 在 $W_{i} / K_{0}$ 上的诱导变换 $A_{1}$ ，它也是一个幂等变换 $A_{1}^{s - 1} = 0$ ，但幂次少1，且 $Ker A_{1}$ （的代表元）都是强循环链条的倒数第二环。以此类推，构造出不同维度的变换 $A_{0}, \dots, A_{s - 1} = 0$ ，以及它们的核空间 $K_{0}, \dots, K_{s - 1}$ 。这时，强循环链条的每一环（从 $A_{0}^{t - 1} α$ 到 $α$ ），依次是 $W_{i} / K_{0}, \dots$ 的代表元。另外根据诱导变换的结论，这些核空间的代表元（都是 $W_{i}$ 的子空间）是互不相关的，且它们的正交和就是 $W_{i}$ 。

　　现在根据这个结构，分解出独立的链条。先从 $K_{s - 1}$ 的代表元中选出一组基 ${α_{j}}$ ，它们都能生成最长的强循环链条。由于 ${α_{j}}$ 与 $K_{s - 2}$ 的代表元不相关，通过反证法可以有 ${A α_{j} \in K_{s - 2}}$ 也不相关，递归可知这些链条的所有元素都是不相关的。接下来再在 ${α_{j}}$ 于 $K_{s - 2}$ 上的补集就行类似的讨论，最终递归构造出互相独立的链条，而链条的所有元素便是 $W_{i}$ 的一组基。需要注意的是，不管基如何选取，不同长度链条（不同维度的强循环子空间）的个数都是确定的。

　　回顾整个构造过程，并结合式（1）可知， $A_{i + 1}$ 的原象与 $A_{i}$ 的象同构，递推得到 $A_{i}$ 的象同构于 $A_{0}^{i + 1}$ ，即有 $rank (A_{i}) = rank (A_{0}^{i + 1})$ 。重新记 $A_{0}$ 的原象 $W_{i}$ 的维度为 $n$ ，它就是所有链条的长度和，而 $A_{i}$ 原象的维度则是所有链条截断后 $i$ 节后的长度和。首先不难看出链条的个数就是 $K_{0}$ 的维数 $n - rank (A_{0})$ ，然后记长度为 $r$ 的链条的个数是 $n_{r}$ ，不难有关系式（7），解此方程组便能得到每个链条的长度。从变换矩阵的角度看， $A_{0}$ 以链条为基的变换矩阵是一个分块对角矩阵 $D$ 。每一个分块对应一个链条，是一个次对角矩阵，且分块的个数和大小也跟链条一致。

$\begin{matrix} (7) & 1 \cdot n_{k + 1} + 2 \cdot n_{k + 2} \dots + (s - k) \cdot n_{s} = rank (A_{0}^{k}), (k = 0, 1, \dots, s - 1) \end{matrix}$

　　现在回到 $W_{i}$ 上的变换 $A = A_{0} + λ_{i} I$ ，它还是可以按上述链条分割为若干不变子空间，以链条为基的变换矩阵是 $D + λ_{i} I$ 。最终不难推导，空间 $V$ 上的变换 $A$ 也能这样分割，以及有对应的变换矩阵。形如式（8）的矩阵称为Jordan块，由若干Jordan块组成的变换矩阵称为Jordan标准型。以上论证则说明了：任何特征多项式可以分解为一阶因式的线性变换 $A$ （不一定是复数域），都有唯一的Jordan标准型。反过来，也可以用Jordan标准型直观地理解链条分解的论述。

$\begin{matrix} (8) & J_{n} (λ) = {[\begin{matrix} λ & 1 \\ ⋱ & ⋱ \\ ⋱ & 1 \\ λ \end{matrix}]}_{n \times n} \end{matrix}$

　　Jordan标准型将线性变换“正交分解”，使得问题的讨论可以分化到更小更简单的不变子空间（链条）上，是极其有效的分析工具。比如通过式（9）可知，有Jordan标准型的变换，与其转置变换相似。如果要具体构造标准型，首先从特征多项式得到特征值和重数，然后把式（7）稍作修改，得到每个特征值下的Jordan块。后一步要基于这样的事实：从标准型可以看出， $A - λ_{i} I$ 在其它特征值的链条下都是满秩的。

$\begin{matrix} (9) & C J_{n} (λ) C = [\begin{matrix} λ \\ 1 & ⋱ \\ ⋱ & ⋱ \\ 1 & λ \end{matrix}]; C = [\begin{matrix} 1 \\ . . . \\ 1 \end{matrix}], C^{2} = I \end{matrix}$

2.2 一般域上的分解

　　复数域上递归分解的方法可以套用到一般数域，基本思想还是降维递归、提取不相关的循环链条，下面就照着再说一遍。假定 $A$ 是 $n$ 维线性空间 $V$ 上的线性变换，它有最小多项式 $\prod p_{i}^{s_{i}} (λ)$ ，其中 $p_{i}^{s_{i}} (λ)$ 是互不相同的不可约因式。先将 $A$ 分解为若干 $A$ -子空间 $W_{i} = Ker p_{i}^{s_{i}} (A)$ 的直和，然后在每个子空间上继续分解。不失一般性，记这个空间为 $W$ ，维度为 $n$ ， $A$ 在其上的变换为 $A_{0}$ ，最小多项式 $p^{s} (λ)$ 的次数为 $r$ 。下面对 $s$ 使用第二归纳法递归论证。

　　当 $s = 1$ 时，对所有元素都有 $p (A_{0}) α = 0$ 。先构造出循环子空间 $U = ⟨ α, \dots, A_{0}^{r - 1} α ⟩$ ，然后对 $A_{0}$ 在 $W / U$ 上的诱导变换进行归纳递归的构造。最终便能得到 $W$ 的一组基，它由 $n / r$ 个循环链条组成，这就是我们要的最终分解。注意这里的一个链条只相当于复数域场景的一个元素，这就是一般域上的不同之处，也是造成复杂的主要原因。

　　当 $s > 1$ 时，类似地构造出 $K_{0} = Ker (p (A_{0}))$ ，以及 $A_{0}$ 在 $W / K_{0}$ 上的诱导变换 $A_{1}$ 。 $A_{1}$ 的最小多项式是 $p^{s - 1} (λ)$ ，按归纳法它可以分解为若干无关的链条，取其一 $⟨ α + K_{0}, \dots, A_{0}^{t - 1} α + K_{0} ⟩$ 。记 $α + K_{0}$ 的最小多项式为 $q (λ) = p^{e} (λ)$ ，则有 $β = q (A_{0}) α \in K_{0}$ ，取其循环链条 $⟨ β, \dots, A_{0}^{r - 1} β ⟩$ 。不难证明 $β$ 链条与 $α + K_{0}$ 链条的代表元互不相关，且合并后等价于 $α$ 链条 $⟨ α, \dots, A_{0}^{s r - 1} α ⟩$ ，每个这样的 $α + K_{0}$ 链条都能找到对应的 $β$ 链条，并扩展为更长的 $α$ 链条。

　　根据所有 $α$ 链条的不相关性，用反证法可知它们的 $β$ 链条也是不相关的。这相当于所有的 $β$ 链条将 $K_{0}$ 进行了局部分割，而剩下的部分也不难分割为若干长度为 $r$ 的 $α$ 链条。所有 $α$ 的元素互不相关，正好构成了 $W$ 的一组基，这就是我们要找的最终分解。每个链条下的变换矩阵有形式（10），它称为Frobinus矩阵，也叫有理块，而有理块组成的变换矩阵叫有理标准型。每个有理块的特征多项式和最小多项式都是 $p^{e} (λ)$ ，其中 $e r = t$ ， $a_{i}$ 是 $p^{e} (λ)$ 中 $λ^{i}$ 的系数。另外如果构造过程中不展开链条，每个分块将是式（11）右的形式（ $H_{r}$ 只有右上角为1），它也被称为广义Jordan块，对应也有广义Jordan标准型。

$\begin{matrix} (10) & C (p (λ)) = {[\begin{matrix} 0 & 0 & \dots & - a_{0} \\ 1 & 0 & \dots & - a_{1} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & \dots & 1 & - a_{t - 1} \end{matrix}]}_{t \times t} \end{matrix}$

$\begin{matrix} (11) & C (p^{r} (λ)) \sim [\begin{matrix} C (p (λ)) \\ H_{r} & ⋱ \\ ⋱ & ⋱ \\ H_{r} & C (p (λ)) \end{matrix}] \end{matrix}$

　　最后根据构造链条的过程易知，链条的个数为 $\frac{1}{r} dim K_{0} = \frac{1}{r} (n - rank [p (A_{0})])$ 。若记长度为 $i r$ 的链条的个数为 $n_{i}$ ，还有式（12）方程组，求解便得到每种链条的个数，从而得到有理标准型。放到一般的变换 $A$ 和空间 $V$ 中，由于 $p (λ)$ 与其它 $p_{j} (λ)$ 互质，利用多项式化一理论可知， $p^{k} (A)$ 在其它 $W_{j}$ 上是满秩的，故而 $rank [p^{k} (A_{0})] = rank [p^{k} (A)]$ 。也就是说，可以直接用 $rank [p_{i}^{k} (A)]$ 计算 $W_{i}$ 上每种链条的数量。

$\begin{matrix} (12) & 1 \cdot n_{k + 1} + 2 \cdot n_{k + 2} \dots + (s - k) \cdot n_{s} = \frac{1}{r} rank [p^{k} (A_{0})], (k = 0, 1, \dots, s - 1) \end{matrix}$

2.3 $λ$ 矩阵

　　标准型是特殊的相似矩阵，它保留了线性变换的核心元素（全系不变量），并以更简单的形式方便了理论推导。但从讨论中看出，具体计算、构造这些全系不变量并不轻松，我们需要一个更好的获取它们的方法。但鉴于这个方法和矩阵相似的跨度实在太大，我一直苦于寻找到一个过渡更顺滑的讲法，但不知从何说起。勉强来说，是要从相似矩阵 $A \sim B$ 的特征矩阵矩阵 $λ I - A, λ I - B$ 中寻找共同点，一是因为特征矩阵原生地保留了变换的所有信息，二是这种表达在HC定理中有一个不容忽视的性质。

　　首先把元素为 $λ$ 多项式的矩阵称为 $λ$ 矩阵，如果允许使用矩阵的数乘运算，每个 $λ$ 矩阵可以表示为式（13）。式（13）把 $λ$ 矩阵看成了矩阵系数的 $λ$ 多项式，而这里的 $λ$ 仅限定在空间的域上。刚才提到的重要性质是指，如果 $F (λ)$ 能表示成式（14）左，那么把 $λ$ 换成矩阵 $A$ 时仍然成立。这个性质依赖一个很简单的道理：要想这种替换成立，只需 $λ, A$ 可交换，故而取 $λ = A$ 一定成立。当然， $λ$ 可以替换为任何与 $A$ 可交换的矩阵。

$\begin{matrix} (13) & F (λ) = λ^{s} A_{s} + \dots + λ A_{1} + A_{0} \end{matrix}$

$\begin{matrix} (14) & F (λ) = (λ I - A) (λ^{s - 1} B_{s - 1} + \dots + B_{0}) \Rightarrow F (A) = 0 \end{matrix}$

　　然后在 $λ$ 矩阵上扩展初等变换和相抵的概念，但要限定初等变换也是 $λ$ 矩阵且可逆，故必须是格式 $P (i, j), P (i, j (f (λ))), P (i (k))$ 之一。在这样的定义下，显然 $λ I - A, λ I - B$ 是相抵的，反之如果有 $P (λ) (λ I - A) = (λ I - B) Q (λ)$ ，由式（14）也能得到 $A \sim B$ 。这就是说矩阵相似与特征矩阵相抵是等价的，而相抵的每一步初等变换都可逆，故可以探索特征矩阵的相抵矩阵而不惧丢失信息。

　　初等变换开始出现于行列式当中，那么来考虑 $A (λ)$ 的所有 $k$ 阶子式的行列式，它们是一个多项式集合。初等变换对它们施加的无非是交换、倍数差、纯量乘，由多项式的理论，这些并不改变多项式集的首1最大公因式 $D_{k} (λ)$ 。它也被称为 $A (λ)$ 的 $k$ 阶行列式因子，它们是相抵意义下的不变量。为了更快地解析出行列式因子，可以先找到 $d_{1} (λ) = D_{1} (λ)$ 放在1行1列，并将1行1列其它元素零化，然后递推得到相抵对角矩阵（15）。其中 $d_{i} (λ) = D_{i} (λ) / D_{i - 1} (λ)$ ，这保证了 $d_{i} (λ)$ 的唯一性，它称为 $M (λ)$ 的不变因子，这样的相抵 $λ$ 矩阵也叫 $M (λ)$ 的Smith标准型。

$\begin{matrix} (15) & F (λ) = P (λ) [\begin{matrix} d_{1} (λ) \\ ⋱ \\ d_{n} (λ) \end{matrix}] Q (λ), d_{i} (λ) = \frac{D_{i} (λ)}{D_{i - 1} (λ)} \end{matrix}$

　　 $λ$ 矩阵相抵只涉及到多项式的运算，不管在计算还是理论推导上，都有其独有的优势。比如解析过程中发现，Smith标准型并不受数域的影响，所以 $λ$ 矩阵的相抵关系不因数域而改变，进而证明矩阵相似也不因数域而改变。再比如转置特征矩阵的行列式因子不变，再次证明总有 $A \sim A^{'}$ 。另外由于递归中 $d_{i} (λ)$ 总是选的公因式，因此还有性质 $d_{i} (λ) ∣ d_{i + 1} (λ)$ （最后几个可能为0）。

　　 $d_{i} (λ)$ 的不可分解因式 $m^{r} (λ)$ 被称为 $λ$ 矩阵的初等因子，它和不变因子都是 $λ$ 矩阵的不变量。如果给定非平凡的初等因子或不变因子，以及矩阵的秩（必需），便能很容易地恢复出它的Smith标准型。有趣的是，只要能找到一个对角型的相抵矩阵，对角元的所有不可分解因式便是所有的初等因子，只需简单调整位置便得到了Smith标准型。原因在于，如果只改变（交换）某个因式的位置，行列式因子不变，从而改变后仍与原矩阵相抵。这就说明，分块对角矩阵的初等因子，就是所有分块的初等因子之合。

　　现在回到特征矩阵 $λ I - A$ ，它的不变因子（行列式因子、初等因子）也被称为 $A$ 的不变因子（行列式因子、初等因子）。由于特征矩阵总是满秩的，加上相抵和相似的等价性，则有不变因子和初等因子都是矩阵相似的全系不变量。容易验证有理块 $C (p^{r} (λ))$ 的初等因子只有 $p^{r} (λ)$ ，从而有理标准型的有理块和初等因子一一对应，这就能更方便地得到有理标准型。特别地，Jordan块 $J_{n} (λ_{0})$ 也与初等因子 $(λ - λ_{0})^{n}$ 一一对应，而且在Jordan标准型中容易看出，不变因子 $d_{n} (λ)$ 其实就是最小多项式，故而再次证明：最小多项式不因数域而变化。

3. 可交换矩阵

　　最后，我们借助一个课题综合运用本章的知识点。记域 $F$ 上 $n$ 维线性空间 $V$ 的线性变换 $A$ ，现在考虑所有与 $A$ 可交换的变换组成的集合 $C [A] = {X | X A = A X}$ ，我们希望能得知 $C [A]$ 更多的信息。首先我们知道， $A$ 的多项式 $f (A)$ 都与 $A$ 可交换，从而多项式域 $F [A]$ 是 $C [A]$ 的一个下界。假设 $A$ 的最小多项式 $m (λ)$ 是 $s$ 阶的，易知 $I, A, \dots, A^{s - 1}$ 线性无关且是 $F [A]$ 的一组基，即 $F [A]$ 是 $s$ 维线性空间。

　　• 记 $P_{i}$ 为分解 $V = \oplus U_{i}$ 下在 $U_{i}$ 上的投影，证明 $P_{i} \in C [A]$ 的充要条件是： $P_{i}$ 为 $A$ -不变子空间。

　　以上一直在讨论线性变换的不变子空间分割，这可以将问题分化到维度更小的独立子空间中分析。在可交换问题上，不变子空间分割表现为（分块）对角矩阵，直接利用矩阵乘法的性质能方便问题的讨论。为简单起见，设 $A$ 可对角化为 $[\begin{matrix} A_{1} \\ A_{2} \end{matrix}]$ ，同时也将 $X$ 按对应子空间分割为 $[\begin{matrix} X_{11} & X_{12} \\ X_{21} & X_{22} \end{matrix}]$ ，由 $A X = X A$ 得到式（16）。这个等式的对角线就是在不变子空间的讨论，而非对角线又引出了新问题 $A_{i} X = X A_{j}$ 。

$\begin{matrix} (16) & [\begin{matrix} A_{1} X_{11} & A_{1} X_{12} \\ A_{2} X_{21} & A_{2} X_{22} \end{matrix}] = [\begin{matrix} X_{11} A_{1} & X_{12} A_{2} \\ X_{21} A_{1} & X_{22} A_{2} \end{matrix}] \end{matrix}$

　　对于特殊的变换，继续推导下去比较容易。比如假设 $A$ 可对角化为 $diag {λ_{1} I_{n_{1}}, \dots, λ_{s} I_{n_{s}}}$ ，对比式（16）可知： $X$ 的对角分块为任意矩阵，而其它分块皆为 $0$ 。也就是说 $C [A]$ 的维度是 $Σ n_{s}^{2}$ ，它一般大于 $F [A]$ 。更特殊地，如果 $A$ 的特征值互不相同，则 $n_{i} = 1$ ，这时 $C [A] = F [A]$ 。

　　对于一般的情况，我们先把注意力放在 $A_{i} X = X A_{j}$ 上，其中 $A_{i}, A_{j}$ 分别是 $n_{i}, n_{j}$ 维方阵， $X$ 是 $n_{i}, n_{j}$ 的矩阵。设 $X$ 的秩为 $r$ ，则它可以表示为 $P [\begin{matrix} I_{r} \\ 0 \end{matrix}] Q$ 。带入等式并整理对比后可知， $P^{- 1} A_{i} P$ 和 $Q A_{j} Q^{- 1}$ 左上角 $r$ 阶子矩阵相同，从而 $A_{i}, A_{j}$ 在复数域有 $r$ 个（算重数）相同的特征值。反之如果 $A_{i}, A_{j}$ 有 $r$ 个（算重数）相同的特征值，分别取对应 $r$ 个线性无关的特征值组成列矩阵 $R_{i}$ 和行矩阵 $R_{j}^{'}$ ，验证 $X = R_{i} R_{j}^{'}$ 可知，它是方程 $A_{i} X = X A_{j}$ 秩为 $r$ 的一个解。综合以上便有结论：方程 $A_{i} X = X A_{j}$ 有秩为 $r$ 的解的充要条件是， $A_{i}, A_{j}$ 在复数域有 $r$ 个（算重数）相同的特征值。

　　以上结论能推推演至 $r$ 成立的最大值，特别地，当 $r = 0$ 时方程只有零解，这时 $A_{i}, A_{j}$ 在复数域没有相同的特征值。由多项式的结论知， $A_{i}, A_{j}$ 的特征多项式互质（在任何数域）。这时既有， $A_{i} X = X A_{j}$ 只有零解的充要条件是， $A_{i}, A_{j}$ 的特征多项式互质。所以如果按式（5）分割不变子空间，方程总是只有零解，可交换问题就只需在不变子空间 $W_{i}$ 中讨论。但要注意 $W_{i}$ 中可能有多个有理块或Jordan块，此时 $C [A_{i}]$ 还没有一般性的结论，我们只能讨论一些特殊情况。简单起见，以下还是记 $W_{i}$ 为 $V$ ，记 $A | W_{i}$ 为 $A$ 。

　　首先假定 $W_{i}$ 中只有一个有理块（或Jordan块），也就是说标准型的每个有理块是互素的，这时就能单独讨论有理块了。记有理块的基是 $ξ, A ξ, \dots, A^{r - 1} ξ$ ，并设 $B \in C [W_{i}]$ 满足 $B ξ = \sum a_{i} A^{i} ξ$ 。对任意向量 $α$ ，将其展开并根据 $A, B$ 的可交换性，容易证得 $B α = \sum a_{i} A^{i} α$ 。从而有 $B = \sum a_{i} A^{i} \in F [A]$ ，再次得到 $C [A] = F [A]$ 。

　　再看 $W_{i}$ 的最小多项式是 $p (λ)$ 是 $r$ 阶一次的情形。我们把 $V$ 看成是域 $F (A)$ 上的线性空间，并定义这个空间上的线性变换集 $H [A] = {Hom}_{F [A]} (V, V)$ ，这个神奇的角度可以让 $f (A)$ 如纯量一样自由穿梭，从而带来所需的“交换”效果。比如对任何 $B \in H [A]$ ，总有 $B (A α) = A (B α)$ ，从而 $B \in C [A]$ 或 $H [A] \subseteq C [A]$ 。反之对任何 $B \in C [A]$ ，总有 $B (f (A) α) = f (A) (B α)$ ，所以 $B$ 可以看成域 $F [A]$ 上线性变换，即有 $B \in H [A]$ 或 $C [A] \subseteq H [A]$ 。综合便得到 $C [A] = H [A]$ ，进一步还可以计算 $H [A]$ 的维度： $H [A]$ 在域 $F [A]$ 上是 $\frac{n^{2}}{r^{2}}$ 维、在原始域上是 $\frac{n^{2}}{r}$ 维的。

　　更一般的 $W_{i}$ 就不太好分析 $C [W_{i}]$ 了，但还有一个漂亮的性质值得介绍一下。这里先定义符号 $C^{2} [A] = C [C [A]]$ ，它表示与 $C [A]$ 所有元素都可交换的变换集，首先因为 $A \in C [A]$ ，故有 $C^{2} [A] \subseteq C [A]$ 。如果 $C [A]$ 没有达到下限 $F [A]$ ，更多的元素其实会对 $C^{2} [A]$ 造成较大的限制，很有可能会有 $C^{2} [A] = F [A]$ 。即对任意 $B =\in C^{2} [A]$ ，我们希望构造出 $B = g (A) \in F [A]$ 。为此先将 $V$ 分解成有理块（或Jordan块） $\oplus U_{i}$ ，记循环子空间 $U_{i}$ 的生成元为 $ξ_{i}$ ，以及最小多项式为 $p_{i} (λ) = p^{s_{i}} (λ)$ ，其中 $s_{i} ⩽ s$ 。

　　因为 $B A = A B$ ，所以 $U_{i}$ 也是 $B$ -子空间，这里记变换 $B_{i} = B | U_{i}$ ，前面已经证明了存在 $B_{i} = g_{i} (A_{i})$ 。那么希望构造的 $g (A)$ 必须满足 $g (A_{i}) - g_{i} (A_{i}) = 0$ ，即 $m_{i} (λ) ∣ g (λ) - g_{i} (λ)$ 。不难看出，如果方程有特解，必然是阶数最高的 $g_{i} (λ)$ ，记对应的生成元为 $ξ$ 。再记 $α = p^{s - s_{i}} (A) ξ$ ，要使等式对每个 $i$ 成立，等价于要求 $g (A) α = g_{i} (A) α$ 。为了出现 $g_{i} (A)$ ，只需把 $α$ 看成 $ξ_{i}$ 在某个变换下的象，而这个变换要与 $B$ 可交换。对任意 $q (A) ξ_{i}$ ，构造变换 $H_{i} (q (A) ξ_{i}) = q (A) α$ ，而在 $U_{j} \neq U_{i}$ 上是单位映射。易证这个映射是良性定义的（如果 $q_{1} (A) ξ_{i} = q_{2} (A) ξ_{i}$ 则象也相同），且有 $H_{i} \in C [A]$ ，则它满足刚才的条件。构造成功后，逆推整个过程便有式（17）成立。

$\begin{matrix} (17) & C^{2} [A] = C [C [A]] = F [A] \end{matrix}$

　　最后来看可交换变换的一个性质。假设复数域上有 $A B = B A$ ，先取 $A$ 的一个特征子空间 $V (λ)$ ，那么它也是 $B$ 的不变子空间。现在在 $V (λ)$ 中取 $B$ 的特征向量 $α_{1}$ ，它是 $A, B$ 的共同特征向量。易知 $A, B$ 在 $α_{1}$ 生成空间下的诱导变换仍然可交换，继续这样的讨论，便能得到一组基 ${α_{i}}$ ，其中 $A α_{i}, B α_{i}$ 都可由 $α_{1}, \dots, α_{i - 1}$ 表示。从变换矩阵的角度，就是存在 $P$ 使得 $P^{- 1} A P$ 和 $P^{- 1} B P$ 都是上三角矩阵，且对角线都是特征值。这个结论能扩展到任意多可交换变换。特别地，如果 ${A_{i}}$ 都可以对角化、且互相可交换。先选择基将 $A_{1}$ 对角化。从本段开始的讨论可知，这时其它变换的矩阵都是对角分块矩阵，利用可对角化的条件（最小多项式），可递推地将所有矩阵都对角化。也就是说，存在 $P$ 使得 $P^{- 1} A_{i} P$ 都是对角矩阵，而刚才的结论就是该结论的扩展。

posted on 2021-02-22 12:33 卞爱华阅读(2938) 评论(3) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 周边上新：园子的第一款马克杯温暖上架

万物皆数

【高等代数】05 - 线性变换

1. 线性变换和不变子空间

1.1 线性变换

1.2 不变子空间和最小多项式

2. 线性空间的分解

2.1 复数域上的分解

2.2 一般域上的分解

2.3 $λ$ 矩阵

3. 可交换矩阵

导航

搜索

合集

随笔分类

站点链接

阅读排行榜

最新评论

万物皆数

【高等代数】05 - 线性变换

1. 线性变换和不变子空间

1.1 线性变换

1.2 不变子空间和最小多项式

2. 线性空间的分解

2.1 复数域上的分解

2.2 一般域上的分解

2.3 λ矩阵

3. 可交换矩阵

导航

搜索

合集

随笔分类

站点链接

阅读排行榜

最新评论

2.3 $λ$ 矩阵