第五章 本征值、本征向量、不变子空间
5.1 不变子空间
- 定义 5.1.1(不变子空间):设 \(T\in\mathcal L(V)\)。称 \(V\) 的子空间 \(U\) 在 \(T\) 下不变,当且仅当对于任意 \(u\in U\) 有 \(Tu\in U\)。
平凡的不变子空间有 \(\{0\},V,\operatorname{null} T,\operatorname{range} T\)。
-
定义 5.1.2(本征值):设 \(T\in\mathcal L(V)\),\(\lambda \in \mathbb F\)。称 \(\lambda\) 为 \(T\) 的本征值,当且仅当存在 \(v\in V\) 且 \(v\neq 0\) 使得 \(Tv=\lambda v\)。
-
引理 5.1.3:设 \(V\) 是有限维的,\(T\in \mathcal L(V)\),\(\lambda \in\mathbb F\)。那么下列命题等价:
- \(\lambda\) 为 \(T\) 的本征值。
- \(T-\lambda I\) 不是单射。
- \(T-\lambda I\) 不是满射。
- \(T-\lambda I\) 不是可逆的。
证明:1 说明 \(v\in V\) 且 \(v\neq 0\) 使得 \((T-\lambda I)v=0\) 从而 \(T-\lambda I\) 不是单射。2 说明 \(\dim\operatorname{range}(T-\lambda I)<\dim V\) 从而 \(\dim\operatorname{null}(T-\lambda I)>0\)。
-
定义 5.1.4(本征向量):设 \(T\in\mathcal L(V)\),\(\lambda\) 是 \(T\) 的本征值,\(v\in V\)。称 \(v\) 为 \(T\) 的相应于 \(\lambda\) 的本征向量,当且仅当 \(v\neq 0\) 且 \(Tv=\lambda v\)。
\(v\neq 0\) 是 \(T\) 相应于 \(\lambda\) 的本征向量,当且仅当 \(v\in\operatorname{null}(T-\lambda I)\)。
-
引理 5.1.5(不同本征值对应的本征向量线性无关):设 \(T\in\mathcal L(V)\),\(\lambda_1,\cdots,\lambda_m\) 是 \(T\) 的互不相同的本征值,\(v_1,\cdots,v_m\) 是相应的本征向量。则 \(v_1,\cdots,v_m\) 线性无关。
证明:反证,若 \(v_1,\cdots,v_m\) 线性相关,则存在最小的 \(k\),使得 \(v_k\in\operatorname{span}(v_1,\cdots,v_{k-1})\)。
那么存在非全零的 \(c_1,\cdots,c_{k-1}\in\mathbb F\) 满足 \(v_k=\sum_{i=1}^{k-1}c_iv_i\)。将等式两边同时乘上 \(\lambda_k\)、或同时作用 \(T\),分别得到 \(\lambda_kv_k=\sum_{i=1}^{k-1}c_i\lambda_kv_i\) 和 \(\lambda_kv_k=\sum_{i=1}^{k-1}c_i\lambda_iv_i\)。两式相减得到 \(\sum_{i=1}^{k-1}c_i(\lambda_k-\lambda_i)v_i=0\)。由于 \(\lambda_1,\cdots,\lambda_k\) 两两不同,且存在 \(c_i\) 非零,所以必然存在 \(c_i(\lambda_k-\lambda_i)\) 非零,那么 \(v_1,\cdots,v_{k-1}\) 就应线性相关,与 \(k\) 是最小的矛盾。
-
引理 5.1.6:设 \(V\) 是有限维的,\(T\in\mathcal L(V)\)。则 \(T\) 至多有 \(\dim V\) 个互不相同的本征值。
-
定义 5.1.7(限制算子、商算子):设 \(T\in\mathcal L(V)\),\(U\) 是 \(V\) 的在 \(T\) 下不变的子空间。
定义限制算子 \(T|_U\in\mathcal L(U)\) 为 \(T|_U(u):=Tu\)。
定义商算子 \(T/U\in\mathcal L(V/U)\) 为 \((T/U)(v+U):=Tv+U\)。
证明:对于 \(T|_U\),容易证明它确实是 \(U\) 上的算子。对于 \(T/U\),它显然是 \(V/U\) 上的算子。
对于 \(T/U\),要证明它是良定义的,即对于任意 \(v+U=w+U\),有 \(Tv+U=Tw+U\)。这是因为 \(v+U=w+U\implies v-w\in U\implies T(v-w)\in U\implies Tv-Tw\in U\implies Tv+U=Tw+U\)。
5.2 本征向量和上三角矩阵
容易定义算子 \(T\in \mathcal L(V)\) 的非负整数次幂。当 \(T\) 可逆时,幂次还能是负整数。算子的幂显然仍然是算子。
- 定义 5.2.1:设 \(T\in\mathcal L(V)\),\(p\in\mathcal P(\mathbb F)\) 满足对于任意 \(z\in\mathbb F\) 有 \(p(z)=\sum_{i=0}^ma_iz^i\)。那么定义 \(p\in \mathcal L(V)\) 为 \(p(T):=\sum_{i=0}^ma_iT^i\)。
为了方便,现在 \(p\) 有两层含义,其一是 \(\mathcal P(\mathbb F)\) 中的元素,其二是 \(\mathcal L(V)\) 中的元素。实际上的操作是在二者之间建立了一个映射,而且容易看出这个映射是线性的。
-
引理 5.2.2:设 \(T\in\mathcal L(V)\),\(p,q\in\mathcal P(\mathbb F)\)。那么:
- \((pq)(T)=p(T)q(T)\)。
- \(p(T)q(T)=q(T)p(T)\)。
证明:按定义展开即可。
那么,我们对多项式进行的许多操作(包括因式分解等),也能把其中的 \(z\) 换成 \(T\) 进行。
-
引理 5.2.3:设 \(V\) 是 \(\mathbb C\) 上的 \(n(n>0)\) 维向量空间,\(T\in \mathcal L(V)\)。那么 \(T\) 有本征值。
证明:任取 \(v\in V\) 且 \(v\neq 0\)。由于 \(n+1\) 个向量 \(v,Tv,\cdots,T^nv\) 线性相关,于是存在非全零的 \(a_0,\cdots,a_n\in\mathbb C\) 使得 \(\sum_{i=0}^na_iT^iv=0\)。进一步地可知 \(a_1,\cdots,a_n\) 非全零,否则有 \(a_0v=0\) 那么 \(a_0\) 就也为零了。
那么根据代数基本定理,存在 \(m\geq 1\) 和 \(c,\lambda_1,\cdots,\lambda_m\in\mathbb C\) 且 \(c\neq 0\) 使得 \(\sum_{i=0}^na_iz^i=c\prod_{i=1}^m(z-\lambda_i)\) 对所有 \(z\in\mathbb C\) 均成立。则 \(0=\sum_{i=0}^na_iT^iv=(\sum_{i=0}^na_iT^i)v=(c\prod_{i=1}^m(T-\lambda_iI))v\)。那么 \(c\prod_{i=1}^m(T-\lambda_iI)\) 不是单射,从而必然存在某 \(T-\lambda_i I\) 不是单射,即 \(\lambda_i\) 是本征值。
证明的关键在于找到 \(p\in\mathcal P(\mathbb C),p\neq 0\) 和 \(v\in V,v\neq 0\) 使得 \((p(T))v=0\)。所以一些其他构造方式,例如:同样任取一个 \(v\in V,v\neq 0\),然后考虑由 \(\phi(p):=(p(T))v\) 定义的函数 \(\phi:\mathcal P_n(\mathbb C)\to V\),容易验证 \(\phi\) 是线性映射,由于 \(\dim \mathcal P_n(\mathbb C)=n+1\) 而 \(\dim V=n\),所以得到 \(\dim \operatorname{null}\phi>0\),所以存在 \(p\neq 0\) 使得 \((p(T))v=0\)。
-
定义 5.2.4(算子的矩阵):设 \(T\in\mathcal L(V)\),\(v_1,\cdots,v_n\) 是 \(V\) 的基。定义 \(T\) 关于这组基的矩阵为 \(n\times n\) 的矩阵 \(\mathcal M(T)\) 满足 \(Tv_i=\sum_{j=1}^n\mathcal M(T)_{j,i}v_j\)。
如果基在上下文中不是自明的,则使用记号 \(\mathcal M(T,(v_1,\cdots,v_n))\)。
-
引理 5.2.5:设 \(T\in\mathcal L(V)\),\(v_1,\cdots,v_n\) 是 \(V\) 的基,那么下列命题等价:
- \(\mathcal M(T,(v_1,\cdots,v_n))\) 是上三角矩阵。
- 对于任意 \(j\) 有 \(Tv_j\in\operatorname{span}(v_1,\cdots,v_j)\)。
- 对于任意 \(j\) 有 \(\operatorname{span}(v_1,\cdots,v_j)\) 在 \(T\) 下不变。
若 \(\mathcal M(T,(v_1,\cdots,v_n))\) 是上三角矩阵,那么有 \(Tv_1=\mathcal M(T)_{1,1}v_1\),从而 \(\mathcal M(T)_{1,1}\) 是 \(T\) 的本征值,\(v_1\) 是其对应的本征向量。
-
引理 5.2.6:设 \(V\) 是 \(\mathbb C\) 上的 \(n(n>0)\) 维向量空间,\(T\in \mathcal L(V)\)。那么 \(T\) 关于 \(V\) 的某个基有上三角矩阵。
证明:只需构造线性无关的 \(v_1,\cdots,v_n\) 满足对于任意 \(j\) 有 \(Tv_j\in\operatorname{span}(v_1,\cdots,v_j)\) 即可。考虑逐个构造。
假设已经构造好了 \(v_1,\cdots,v_{j}\)(\(0\leq j<n\)),记 \(U=\operatorname{span}(v_1,\cdots,v_j)\)。考虑商算子 \(T/U\in \mathcal L(V/U)\),由于 \(V/U\) 是 \(\mathbb C\) 上的 \(n-j>0\) 维向量空间,所以根据引理 5.2.3,\(T/U\) 存在本征值 \(\lambda\),那么也就存在 \(w\in V\) 使得 \(Tw+U=(T/U)(w+U)=\lambda(w+U)=\lambda w+U\) 且 \(w+U\neq U\)(那么 \(w\not\in U\) 即 \(w\not\in\operatorname{span}(v_1,\cdots,v_j)\)),那么有 \(Tw-\lambda w\in U\),于是 \(Tw\in\operatorname{span}(v_1,\cdots,v_{j},w)\)。取 \(v_{j+1}:=w\) 即可。
-
引理 5.2.7:设 \(T\in\mathcal L(V)\),\(T\) 关于 \(V\) 的基 \(v_1,\cdots,v_n\) 有上三角矩阵。那么 \(T\) 可逆当且仅当 \(\mathcal M(T,(v_1,\cdots,v_n))\) 对角线上的元素全部非零。
证明:若 \(T\) 可逆,但 \(\mathcal M(T)\) 对角线上存在零,那么存在最小的 \(j\) 使得 \(\mathcal M(T)_{j,j}=0\)。记 \(U=\operatorname{span}(v_1,\cdots,v_{j-1})\),那么 \(T v_j\in U\)。可知 \(T|_U\in\mathcal L(U)\) 且 \(\mathcal M(T)_{[1,j-1],[1,j-1]}\) 是 \(T|_U\) 关于 \(U\) 的基 \(v_1,\cdots,v_{j-1}\) 的上三角矩阵,根据归纳可知 \(T|_U\) 是可逆的,那么存在 \(u\in U\) 使得 \(Tu=Tv_j\),从而 \(T\) 不是单射,矛盾。
若 \(T\) 不可逆,那么 \(Tv_1,\cdots,Tv_n\) 线性相关,那么存在最小的 \(j\) 使得 \(Tv_j\in\operatorname{span}(Tv_1,\cdots,Tv_{j-1})\),由于 \(\operatorname{span}(v_1,\cdots,v_{j-1})\) 在 \(T\) 下不变,所以 \(\operatorname{span}(Tv_1,\cdots,Tv_{j-1})\subseteq \operatorname{span}(v_1,\cdots,v_{j-1})\),从而 \(\mathcal M(T)_{j,j}=0\)。
-
引理 5.2.8:设 \(T\in\mathcal L(V)\),\(T\) 关于 \(V\) 的基 \(v_1,\cdots,v_n\) 有上三角矩阵。那么 \(\mathcal M(T,(v_1,\cdots,v_n))\) 对角线上的元素构成了所有 \(T\) 的本征值。
证明:由于 \(\mathcal M(T-\lambda I)\) 也是上三角矩阵,所以 \(T-\lambda I\) 不可逆当且仅当 \(\mathcal M(T-\lambda I)\) 对角线上存在零,也就是 \(\lambda\) 在 \(\mathcal M(T)\) 对角线上出现。
5.3 本征空间和对角矩阵
- 定义 5.3.1(本征空间):设 \(T\in\mathcal L(V)\),\(\lambda\in\mathbb F\)。定义 \(T\) 相应于 \(\lambda\) 的本征空间为 \(E(\lambda,T):=\operatorname{null}(T-\lambda I)\)。
\(E(\lambda,T)\) 即为所有 \(T\) 相应于 \(\lambda\) 的本征向量并上 \(\{0\}\) 构成的子空间。
-
引理 5.3.2:设 \(V\) 是有限维的,\(T\in\mathcal L(V)\),\(\lambda_1,\cdots,\lambda_m\) 是 \(T\) 的互不相同的本征值。那么 \(E(\lambda_1,T)+\cdots+E(\lambda_m,T)\) 是直和。
-
定义 5.3.3(可对角化):设 \(T\in\mathcal L(V)\)。称 \(T\) 是可对角化的,当且仅当 \(T\) 关于 \(V\) 的某个基有对角矩阵。
-
引理 5.3.4:设 \(V\) 是有限维的,\(T\in\mathcal L(V)\),\(\lambda_1,\cdots,\lambda_m\) 是 \(T\) 的所有互不相同的本征值(\(m\leq n\))。那么下列命题等价:
- \(T\) 可对角化。
- \(V\) 有由 \(T\) 的本征向量构成的基。
- \(V\) 有在 \(T\) 下不变的一维子空间 \(U_1,\cdots,U_n\) 使得 \(V=U_1\oplus\cdots\oplus U_n\)。
- \(V=E(\lambda_1,T)\oplus \cdots\oplus E(\lambda_m,T)\)。
- \(\dim V=\dim E(\lambda_1,T)+\cdots+\dim E(\lambda_m,T)\)。
-
引理 5.3.5:设 \(V\) 是有限维的,\(T\in\mathcal L(V)\),\(T\) 有 \(n\) 个互不相同的本征值。则 \(T\) 可对角化。