500min 慢通线代

免责声明:本文是博主复习线代期末考试所用,并不适合所有人阅读,也并不保证所有内容完全正确。

教材:Linear Algebra, forth edition by S. H. Friedberg, A. J. Insel, L. E. Spence

本文将包含:

  1. 教材中大部分的定义;
  2. 教材中博主认为重要的定理,不那么显然的定理会带上简略证明过程;
  3. 博主的总结和浅薄的理解。

博主很懒,所以本文 latex 中不会出现 \mathbf\mathsf 之类的字体,会略微降低阅读体验。

默认本文涉及到的所有变换均为线性变换。

关于有限维:涉及到 \(\dim\)、有序基底或者矩阵等的线性空间默认加上有限维的前提。对于其他限制了有限维的情况,会额外标注。

Chapter 1 - Vector Spaces

\(F\) 上的线性空间 \(V\)

两种运算:加法、数乘。对于 \(\forall x, y \in V\),存在唯一的 \(x + y \in V\);对于 \(\forall x \in V, a \in F\),存在唯一的 \(ax \in V\)

需要满足八条性质:加法交换律、加法结合律、存在零元、存在加法逆元、存在幺元、数乘结合律、向量加法对数乘分配律、标量加法对数乘的分配律。

这些定义可以导出一些常用的代数性质。

子空间

定义无需多言。

判定就是对于 \(\forall x, y \in W\),检查是否有 \(cx + y \in W\),其中 \(c \in F\)

子空间的交也是子空间。

线性组合

定义无需多言。

\(\text{span}(S)\)\(S\) 中元素的所有线性组合。显然其也是子空间。

\(\text{span}(S) = V\),则称 \(S\) 生成 \(V\)

线性相关 / 无关

定义无需多言。

基底

定义无需多言。

从一个生成 \(V\) 的有限集合 \(S\) 中构造基底:逐个添加并检查是否线性无关。

Replacement Theorem:设 \(|G| = n\)\(V\)\(G\) 生成的线性空间。令 \(L\)\(V\) 的一个大小为 \(m\) 的线性无关子集,则存在 \(G\) 的大小为 \(n - m\) 的子集 \(H\),使得 \(\text{span}(L \cup H) = V\)。可以对 \(m\) 归纳证明。

\(V\) 的任意基底大小相同,可以通过 Replacement Theorem 证明。这个相同的大小记为 \(\dim(V)\)

\(V\) 中任意线性无关子集可以被扩展为一个基底。这是后面很多证明中常用的思路。

Chapter 2 - Linear Transformations and Matrices

线性变换

\(T : V \to W\) 是线性变换当且仅当对于 \(\forall x, y \in V\)\(T(cx + y) = cT(x) + y\)

定义 \(T\) 的值域 \(R(T) = \{T(x) \mid x \in V\}\)、零空间 \(N(T) = \{x \mid T(x) = 0\}\)。显然二者分别是 \(W\)\(V\) 的子空间。

\(\text{rank}(T) = \dim(R(T)), \text{nullity}(T) = \dim(N(T))\),则 \(\dim(V) = \text{rank}(T) + \text{nullity}(T)\)。可以通过找到 \(N(T)\) 的一组基底然后扩展的方法证明。

矩阵表示

把基底的元素标号,可以得到有序基底。

对于向量 \(x\) 和有序基底 \(\beta\),将用 \(\beta\) 表示 \(x\) 的系数按顺序排成一列,可以得到 \(x\)\(\beta\) 下的矩阵表示,记为 \([x]_{\beta}\)

对于线性变换 \(T : V \to W\),令 \(\beta, \gamma\) 分别为 \(V, W\) 的一组有序基底,定义 \([T]_{\beta}^{\gamma}\) 为一个 \(\dim(W) \times \dim(V)\) 的矩阵,其中第 \(j\) 列为 \([T(\beta_j)]_{\gamma}\)。当 \(\beta = \gamma\) 时右上角可以省略 \(\gamma\)

\(L(V, W)\) 为所有 \(V \to W\) 的线性变换组成的集合,则 \(L(V, W)\) 也是一个线性空间,这意味着线性变换进行一些基础运算之后还是线性变换。

对于任意 \(x \in V\),有 \([T(x)]_{\gamma} = [T]_{\beta}^{\gamma} [x]_{\beta}\)

线性变换复合后也依然是线性变换,有 \([UT]_{\alpha}^{\gamma} = [U]_{\beta}^{\gamma}[T]_{\alpha}^{\beta}\)

此后若干定义会同时对线性变换和矩阵定义,不过基本是一样的。因为矩阵需要依赖基底而线性变换不用,我们可以用线性变换来理解矩阵,并证明矩阵的一些性质。

定义无需多言。

\(T\) 可逆当且仅当其是双射,即同时为单射和满射。

\(T : V \to W\) 可以,则称 \(V, W\) 同构。显然,在同一域 \(F\) 上的线性空间 \(V, W\) 同构当且仅当 \(\dim(V) = \dim(W)\)

变换基底

\(I : V \to V\) 为单位变换,且令 \(\beta, \beta'\) 为两组有序基底,那么

\[[x]_{\beta'} = [I]_{\beta}^{\beta'} [x]_{\beta} \]

\[[T]_{\beta'} = [I]_{\beta}^{\beta'} [T]_{\beta} [I]_{\beta'}^{\beta} \]

由此我们可以定义矩阵的相似:称 \(n \times n\) 矩阵 \(A\)\(B\) 相似,当且仅当存在可逆矩阵 \(Q\),使得 \(B = Q^{-1}AQ\)。相似矩阵是同一线性变换在不同有序基底下的表示。

注意到 \(\text{tr}(AB) = \text{tr}(BA)\),所以相似的矩阵有相同的迹。事实上,考察 \(A\) 的特征多项式,我们可以发现 \(\text{tr}(A)\) 实际上就是其对应线性变换的特征值之和,与选取的有序基底无关,所以上述性质自然成立。

对偶空间

对于 \(F\) 上的线性空间 \(V\),定义 \(V\) 的对偶空间为 \(V^* = L(V, F)\)

显然 \(\dim(V^*) = \dim(V)\)。令 \(n = \dim(V^*)\),则 \(V^*\) 的一组基底为 \(\{f_1, f_2, \cdots, f_n\}\),其中 \(f_i(\beta_j) = [i = j]\)

对于 \(T : V \to W\),定义 \(T^t : W^* \to V^*\),满足 \(T^t(g) = gT\)。不难发现 \([T^t]_{\gamma*}^{\beta*} = ([T]_{\beta}^{\gamma})^t\)

类似定义 \(V^{**}\)。定义 \(\hat x : V^* \to F\) 满足 \(\hat x(f) = f(x)\),那么 \(\psi : V \to V^{**}\) 满足 \(\psi(x) = \hat x\) 是双射。

可以发现,任意一组 \(V\) 的有序基底都可以与 \(V^*\)\(V^{**}\) 的一组有序基底对应。

Chapter 3 - Elementary Matrix Operations and Systems of Lienar Equations

LU 分解

一个前提条件是高消的过程中没有交换两行的操作。

目标是找到 \(A = LU\),使得 \(L\) 是下三角矩阵,而 \(U\) 是上三角矩阵。在高消的过程中直接记录即可,因为保证了不会交换两行所以合法。

于是我们在解 \(Ax = b\) 时只需要分别解 \(Ly = b\)\(Ux = y\)

其他

一些和秩、逆或者行列式有关的证明或操作可以考虑分解为初等矩阵。

线性变换复合之后秩不会比任意一个大。

Chapter 4 - Determinants

定义无需多言。教材上的定义是递归式的;一种等价的定义是排列式的。

\(\det(AB) = \det(A)\det(B)\),这个可以通过将 \(A\) 分解为初等矩阵后根据行列式的基本性质证明。一个简单的推论是:当 \(A\) 可逆时 \(\det(A^{-1}) = \det(A)^{-1}\)

\(A, B\) 不是方阵的情况见我 之前的博客,但是大概率没什么用。

\(\det(A^t) = \det(A)\),同样通过将 \(A\) 分解为初等矩阵后证明。

克拉默法则:设 \(A\)\(n \times n\) 的可逆矩阵,则 \(Ax = b\) 有唯一解。记 \(M_k\) 为将 \(A\) 的第 \(k\) 列替换为 \(b\) 得到的矩阵,则

\[x_k = \frac{\det(M_k)}{\det(A)} \]

非方阵

证明:令 \(x\) 为唯一解。记 \(X_k\) 为将 \(I\) 的第 \(k\) 列替换为 \(X\) 得到的矩阵,则 \(AX_k = M_k\)。于是

\[x_k = \det(X_k) = \frac{\det(M_k)}{\det(A)} \]

Chapter 5 - Diagonalization

特征值、特征向量、特征空间

\(T : V \to V\),则称 \(T\)\(V\) 上的线性算子。

对于线性算子 \(T\)\(x \in V, x \ne 0\),若 \(T(x) = \lambda x\),则称 \(\lambda\)\(T\) 的特征值,且 \(x\) 为其对应的特征向量。

给定有序基底 \(\beta\),令 \(A = [T]_{\beta}\),则 \(\lambda\)\(T\) 的特征值当且仅当存在 \(x \ne 0\) 使得 \(Ax = \lambda x\),即 \(A - \lambda I\) 的零空间不为 \(\{0\}\),即 \(\det(A - \lambda I) = 0\)。称 \(f(t) = \det(A - tI)\)\(T\) 的特征多项式。

不同的特征值对应的特征向量线性无关。形式化地,设 \(T(x_i) = \lambda_i x_i(i = 1, 2, \cdots, k)\),其中 \(\lambda_i\) 两两不同,则 \(\{x_1, x_2, \cdots, x_k\}\) 线性无关。证明可以考虑对 \(k\) 归纳,假设 \(\sum a_i x_i = 0\),同时对两侧施加 \(T - \lambda_k I\) 算子即可导出矛盾。

\(\mathbb C\) 中,\(f(t) = 0\)\(n\) 个解。对于任意解 \(\lambda\),称其在 \(n\) 个解中出现的次数为其的代数重数。令 \(\lambda\) 的特征空间为 \(E_{\lambda}\)\(N(T - \lambda I)\),称 \(\dim(E_{\lambda})\) 为其的几何重数。

几何重数介于 \(1\) 和代数重数之间。证明:考虑取 \(E_{\lambda}\) 的一个有序基底,并扩展为一个 \(V\) 的基底,求特征多项式可以发现 \((\lambda - t)^{\dim(E_{\lambda})}\)\(f(t)\) 的一个因式。

\(T\) 可对角化当且仅当其所有特征值的几何重数等于代数重数。

如果在 \(\mathbb R\) 上讨论这些问题,还需要考虑 \(f(t) = 0\) 的解不都是实数的情况。

\(T\) 可对角化,则 \(V\)\(T\) 的所有特征空间的直和。

\(T\) - 不变子空间

定义无需多言。

\(W\)\(V\)\(T\) - 不变子空间,\(T_W\) 是把定义域缩减到 \(W\) 后的线性算子,则 \(T_W\) 的特征多项式 \(f_W\)\(T\) 的特征多项式的因式。

证明:方法和证明几何重数介于 \(1\) 和代数重数之间的方法类似。取 \(W\) 的一个有序基底,并将其扩展为 \(V\) 的一个有序基底,则

\[ [T]_{\beta} = \begin{pmatrix} B_1 & B_2 \\ O & B_3 \end{pmatrix} \]

其中 \(B_1\) 对应 \(W\) 的有序基底部分。则 \(\det(A - tI) = \det(B_1 - tI)\det(B_3 - tI)\)

一个类似的结论:若 \(V = W_1 \bigoplus W_2 \cdots \bigoplus W_k\),其中 \(W_i\)\(T\) - 不变子空间,记 \(f_i\)\(T_{W_i}\) 的特征多项式,则 \(f = \prod f_i\)。对 \(k\) 归纳证明即可。

对于 \(x\),称 \(\text{span}(\{x, T(x), T^2(x), \cdots\})\)\(x\) 生成的 \(T\) - 循环子空间。记其为 \(W\),若 \(W\) 为有限维,记 \(k = \dim(W)\),则 \(\{x, T(x), \cdots, T^{k-1}(x)\}\)\(W\) 的一个基底。设 \(\sum_{i = 0} ^ {k - 1} a_i T^i(x) + T^k(x) = 0\),则 \(T_W\) 的特征多项式是 \((-1)^k(\sum_{i = 0} ^ {k - 1} a_i t^i + t^k)\)。这个考察一下 \([T]_{\beta}\) 然后对 \(k\) 归纳一下即可。

Cayley–Hamilton Theorem:\(f(T) = T_0\),其中 \(T_0(x) = 0\)。证明就是顺水推舟:对于 \(\forall x \in V\),考虑 \(x\) 生成的 \(T\) - 循环子空间 \(W\),则根据其特征多项式的形式能直接得出 \(f_W(T_W)(x) = 0\);又因为其是 \(V\) 的子空间,所以 \(f_W\)\(f\) 的因式,故 \(f(T)(x) = 0\)

Chapter 6 - Inner Product Spaces

大的要来了。

内积

\(F\) 上的线性空间 \(V\) 上的内积 \(\langle x, y \rangle\) 是满足以下条件的二元函数:

  1. \(\langle x + z, y \rangle = \langle x, y \rangle + \langle z, y \rangle\)
  2. \(\langle cx, y \rangle = c\langle x, y \rangle\)
  3. \(\langle x, y \rangle = \overline{\langle y, x \rangle}\)
  4. \(x \ne 0\),则 \(\langle x, x \rangle > 0\)

\(x = (a_1, a_2, \cdots, a_n)^t, y = (b_1, b_2, \cdots, b_n)^t\)。定义 \(\langle x, y \rangle = \sum_{i = 1} ^ n a_i\overline{b_i}\)\(F^n\) 上的标准内积。

对于 \(m \times n\) 的矩阵 \(A\),定义 \(A^*\) 为一个 \(n \times m\) 的矩阵,满足 \((A^*)_{ij} = \overline{A_{ji}}\)

带有特定内积运算的线性空间 \(V\) 称为内积空间。当 \(F = \mathbb C\) 时,\(V\) 称为复内积空间;当 \(F = \mathbb R\) 时,\(V\) 称为实内积空间。

若对于 \(\forall x\)\(\langle x, y \rangle = \langle x, z \rangle\),则 \(y = z\)

定义向量 \(x\) 的模长为 \(\sqrt{\langle x, x \rangle}\)

柯西不等式:\(|\langle x, y \rangle| \le ||x|| \cdot ||y||\)

证明:若 \(y = 0\) 则结论显然成立。否则考虑

\[ \begin{aligned} 0 & \le ||x - cy||^2 = \langle x - cy, x - cy \rangle \\ & = \langle x, x \rangle - \overline c \langle x, y \rangle - c \langle y, x \rangle + c^2 \langle y, y \rangle \end{aligned} \]

\(c = \frac{\langle x, y \rangle}{\langle y, y \rangle}\),则不等式变为

\[0 \le \langle x, x \rangle - \frac{|\langle x, y \rangle|^2}{\langle y, y \rangle} = ||x||^2 - \frac{|\langle x, y \rangle|^2}{||y||^2} \]

即证。

三角不等式:\(||x + y|| \le |x| + |y|\)。可以拆开左侧然后通过柯西不等式证明。

正交

\(x, y\) 正交,当且仅当 \(\langle x, y \rangle = 0\)

\(x\) 是单位向量,当且仅当 \(||x|| = 1\)

\(V\) 的子集 \(S\) 是标准正交的,当且仅当其包含两两正交的单位向量。

定理:设 \(S = \{v_1, v_2, \cdots, v_k\}\)\(V\) 的一个正交子集,\(x \in \text{span}(S)\)。则

\[x = \sum_i \frac{{\langle x, v_i \rangle}}{||v_i||^2} v_i \]

证明:令 \(x = \sum_i a_i v_i\)。则

\[\langle x, v_i \rangle = \langle \sum_i a_i v_i, v_i \rangle = \langle a_i v_i, v_i \rangle = a_i ||v_i||^2 \]

由此也可以得出,若 \(0 \not\in S\),则 \(S\) 是线性无关的。

证明:若 \(\sum_i a_i v_i = 0\),则对于 \(\forall p \in [1, k]\),有 \(\langle \sum_i a_i v_i, v_p \rangle = a_p ||v_p||^2 = 0\),故 \(a_p = 0\)

定理:设 \(S = \{w_1, w_2, \cdots, w_n\}\)\(V\) 的一个线性无关子集,我们可以通过如下方式得到正交子集 \(S' = \{v_1, v_2, \cdots, v_n\}\),使得 \(\text{span}(S') = \text{span}(S)\):对于 \(k = 1, 2, \cdots, n\),令

\[v_k = w_k - \sum_{i = 1} ^ {k - 1} \frac{\langle w_k, v_i \rangle}{||v_i||^2} v_i \]

证明可以考虑直接对 \(k\) 归纳证明。

上面的过程被称为 Gram–Schmidt 过程。

于是,对于任意有限维内积空间 \(V\),我们总能找到一组标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),则对于 \(\forall x \in V\),有

\[x = \sum_i \langle x, v_i \rangle v_i \]

对于任意线性算子 \(T\),我们也能直接得到

\[[T]_{\beta_{ij}} = \langle T(v_j), v_i \rangle \]

对于 \(V\) 的标准正交子集 \(\beta = \{v_1, v_2, \cdots\}\)\(x \in V\),称 \(v_i\)\(\langle x, v_i \rangle\)\(x\) 关于 \(\beta\) 的第 \(i\) 个傅里叶系数。

对于 \(V\) 的非空子集 \(S\),令 \(S^{\perp} = \{x \in V : \forall y \in S, \langle x, y \rangle = 0\}\)。显然 \(S^{\perp}\)\(V\) 的子空间。

定理:令 \(W\)\(V\) 的一个 有限维 子空间,\(y \in V\),则存在唯一的 \(u \in W\)\(z \in W^{\perp}\),满足 \(y = u + z\)。令 \(\beta = \{v_1, v_2, \cdots, v_k\}\)\(W\) 的一组标准正交基,则

\[u = \sum_i \langle y, v_i \rangle v_i \]

证明:\(u \in W\)\(z = y - u \in W^{\perp}\) 很显然,直接用内积证明即可。注意到 \(W \cap W^{\perp} = \{0\}\),于是假设 \(y = u + z = u' + z'\),则 \(u - u' \in W, z' - z \in W^{\perp}\),而 \(u - u' = z' - z\),故 \(u = u', z = z'\)

从几何上理解,\(u\)\(W\) 中距离 \(y\) 最近的点。可以通过对于 \(\forall x \in W\),有 \(||y - x||^2 = ||(u - x) + z||^2 = ||u - x||^2 + ||z||^2 \ge ||z||^2\) 来证明。

\(u\) 被称为 \(y\)\(W\) 上的正交投影。

对于内积空间 \(V\) 和其 有限维 子空间 \(W\),有 \(V = W \bigoplus W^{\perp}\)

伴随

定理:令 \(V\)有限维 内积空间。任意 \(V \to F\) 的线性变换可以看作求与特殊向量的内积。形式化地,令 \(g : V \to F\),则存在 \(y \in V\),使得对于 \(\forall y \in V\)\(g(x) = \langle x, y \rangle\)

证明:令 \(\beta = \{v_1, v_2, \cdots, v_n\}\)\(V\) 的一组标准正交基。直接令 \(y = \sum_i \overline{g(v_i)} v_i\) 即可,正确性应该是显然的。

同时,显然这样的 \(y\) 是唯一的。

定理:令 \(V\)有限维 内积空间,\(T\)\(V\) 上的线性算子。存在唯一的线性算子 \(T^*\),使得对于 \(\forall x, y \in V\)\(\langle T(x), y \rangle = \langle x, T^*(y) \rangle\)

证明:首先考虑固定 \(y\),令 \(g(x) = \langle T(x), y \rangle\)。根据上一个定理,存在 \(y' \in V\) 使得对于 \(\forall x \in V\)\(g(x) = \langle x, y' \rangle\),令 \(T^*(x) = y'\) 即可。

接下来我们需要证明 \(T^*\) 是线性的。因为对 \(\forall x\)

\[ \begin{aligned} \langle x, T^*(cy_1 + y_2) \rangle & = \langle T(x), cy_1 + y_2 \rangle \\ & = \overline c\langle T(x), y_1 \rangle + \langle T(x), y_2 \rangle \\ & = \overline c\langle x, T^*(y_1) \rangle + \langle x, T^*(y_2) \rangle \\ & = \langle x, cT^*(y_1) + T^*(y_2) \rangle \end{aligned} \]

所以 \(T^*(cy_1 + y_2) = cT^*(y_1) + T^*(y_2)\),因此 \(T^*\) 是线性的。因为对于每个 \(y\)\(T^*(y)\) 有唯一的取值,所以 \(T^*\) 是唯一的。

\(T^*\) 称为 \(T\) 的伴随算子。

定理:令 \(V\)有限维 内积空间,\(T\)\(V\) 上的线性算子,\(\beta = \{v_1, v_2, \cdots, v_n\}\)\(V\) 的一组标准正交基。则 \([T^*]_{\beta} = [T]_{\beta}^*\)

证明:\([T^*]_{\beta_{ij}} = \langle T^*(v_j), v_i \rangle = \overline{\langle v_i, T^*(v_j) \rangle} = \overline{\langle T(v_i), v_j \rangle} = \overline{[T]_{\beta_{ji}}}\)

由此可见,\(T^{**} = T\)

最小二乘法

平面上有 \(n\) 个点 \((t_1, y_1), (t_2, y_2), \cdots, (t_n, y_n)\),其中 \(t_i\) 两两不同。需要用一条直线 \(y = ct + d\) 拟合这 \(n\) 个点,使得误差最小。误差定义为 \(\sum_i (y_i - c t_i - d)^2\)

做法:令

\[ A = \begin{pmatrix} t_1 & 1 \\ t_2 & 1 \\ \vdots & \vdots \\ t_n & 1 \end{pmatrix}, x = \begin{pmatrix} c \\ d \end{pmatrix}, y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} \]

我们实际上要最小化 \(||y - Ax||^2\)。我们不妨考虑 \(A\) 是任意 \(m \times n\) 矩阵的情况,此时我们在 \(R(A)\) 中找离 \(y\) 最近的点,所以最优的 \(x\) 满足 \(y - Ax \perp R(A)\)。也就是 \(A^*(y - Ax) = 0\),可以理解为 \(x\)\(A\) 的每一列与 \(y - Ax\) 的内积为 \(0\)。所以最优的 \(x\) 满足 \(A^*Ax = A^*y\)

注意到对于 \(\forall x \ne 0\),有 \(A^*Ax = 0 \Leftrightarrow x^*A^*Ax = 0 \Leftrightarrow \langle Ax, Ax \rangle = 0 \Leftrightarrow Ax = 0\),显然 \(N(A^*A) = N(A)\),所以当 \(\text{rank}(A) = n\) 时,\(x = (A^*A)^{-1} A^* y\)

书上证明 \(\text{rank}(A^*A) = \text{rank}(A)\) 的表述方式是首先注意到 \(\langle Ax, y \rangle _m = \langle x, A^*y \rangle _n\),然后说明 \(\langle A^*Ax, x \rangle _n = \langle Ax, Ax \rangle _m\),和上面方法的区别只是表述方式的不同。

线性方程组的最小解

同理,设一个特解为 \(u\),则解空间为 \(u + N(A)\)。最优解需要与 \(N(A)\) 垂直,因为 \(N(A)^{\perp} = R(A^*)\) 所以最优解为 \(R(A^*)\) 中的解。更具体地,\(AA^*x = b\) 有解 \(x = x'\),最优解即 \(x = A^* x'\)。显然解存在且唯一。

正规算子、自轭算子

定理:若线性算子 \(T\) 有特征值 \(\lambda\),则 \(T^*\) 有特征值 \(\overline{\lambda}\)

证明:若存在 \(x \ne 0\) 使得 \(T(x) = \lambda x\),则对于 \(\forall y \in V\),有

\[0 = \langle 0, y \rangle = \langle (T - \lambda I)(x), y \rangle = \langle x, (T^* - \overline {\lambda} I)(y) \rangle \]

由此可见,\(x \perp R(T^* - \overline {\lambda} I)\),即 \(N(T^* - \overline {\lambda} I) \ne \{0\}\),故 \(\overline {\lambda}\)\(T^*\) 的特征值。

舒尔定理:令 \(V\)有限维 内积空间,\(T\)\(V\) 上的线性算子,若 \(T\) 的特征多项式可分解,则存在标准正交基 \(\beta\) 使得 \([T]_{\beta}\) 是上三角矩阵。

证明:取一组使得 \([T]_{\beta}\) 是对角矩阵的基底,然后对其执行 Gram–Schmidt 过程即可。

\(TT^* = T^*T\),则称 \(T\) 为正规算子。

下面介绍一些正规算子的基本性质:

定理:若 \(T\) 是正规算子,则对于 \(\forall x\)\(||T(x)|| = ||T^*(x)||\)

证明:

\[\langle T(x), T(x) \rangle = \langle x, TT^*(x) \rangle = \langle x, T^*T(x) \rangle = \langle T^*(x), T^*(x) \rangle \]

定理:若 \(T\) 是正规算子,则对于 \(\forall c \in F\)\(T - cI\) 也是正规算子。

证明:直接拆开就行。

定理:若 \(T\) 是正规算子,\(T(x) = \lambda x\),则 \(T^*(x) = \overline{\lambda} x\)

证明:令 \(U = T - \lambda I\),由上一个定理立得 \(U\) 正规,于是结论显然。

定理:若 \(T\) 是正规算子,则 \(T\) 的任意两个不同的特征空间垂直。

一个推论是,\(N(T) = N(T^*)\),当 \(V\)有限维 内积空间时 \(R(T) = R(T^*)\)

证明:设 \(T(x_1) = \lambda_1 x_1, T(x_2) = \lambda_2 x_2(\lambda_1 \ne \lambda_2)\),则

\[\lambda_1 \langle x_1, x_2 \rangle = \langle T(x_1), x_2 \rangle = \langle x_1, T^*(x_2) \rangle = \lambda_2 \langle x_1, x_2 \rangle \]

定理:\(\mathbb C\) 上的内积空间 \(V\) 上的线性算子 \(T\) 正规,当且仅当存在 \(V\) 的标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),使得 \(v_i\)\(T\) 的特征向量。

证明:假设 \(T\) 正规,则根据舒尔定理,存在一组标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),使得 \(A = [T]_{\beta}\) 是上三角矩阵。接下来归纳证明 \(A\) 是对角矩阵,核心公式为

\[A_{jk} = \langle T(v_k), v_j \rangle = \langle v_k, T^*(v_j) \rangle = \langle v_k, \overline{\lambda_j} v_j \rangle = 0 \]

其中 \(1 \le j < k \le n\),利用了 \(T\)\(T^*\) 共享特征向量的性质。

若存在 \(V\) 的标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),使得 \(v_i\)\(T\) 的特征向量,则 \(T\) 正规是显然的。

\(T = T^*\),则称 \(T\) 为自轭算子。

\(T\) 自轭,显然 \(T\) 正规,因此 \(T\)\(T^*\) 共享特征向量。因此对于 \(T\) 的任意特征值 \(\lambda\)

\[\lambda x = T(x) = T^*(x) = \overline{\lambda} x \]

因此 \(T\) 的所有特征值为实数。

定理:\(\mathbb R\) 上的内积空间 \(V\) 上的线性算子 \(T\) 自轭,当且仅当存在 \(V\) 的标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),使得 \(v_i\)\(T\) 的特征向量。

证明:和上一个定理的证明没什么区别。只在 \(\mathbb R\) 上成立的关键条件是是 \(D^* = D\)

可以看出,对于 \(R\) 上的内积空间 \(V\),正规和自轭等价。

酉算子

若对 \(\forall x \in V\)\(||T(x)|| = ||x||\),则称 \(T\) 为酉算子(\(F = \mathbb C\))或正交算子 \(F = \mathbb R\)

以下四个命题等价:

  1. \(TT^* = T^*T = I\)
  2. \(\forall x, y \in V\),有 \(\langle T(x), T(y) \rangle = \langle x, y \rangle\)
  3. \(\beta = \{v_1, v_2, \cdots, v_n\}\)\(V\) 的一组标准正交基,则 \(T(\beta)\) 也是一组标准正交基;
  4. \(\forall x \in V\)\(||T(x)|| = ||x||\)

\(1 \to 2\) 证明:

\(\forall x, y \in V\),有

\[\langle T(x), T(y) \rangle = \langle x, T^*T(y) \rangle = \langle x, y \rangle \]

\(2 \to 3\) 证明:

\(\forall 1 \le i, j \le n\),有 \(\langle T(v_i), T(v_j) \rangle = \langle v_i, v_j \rangle = [i = j]\)。显然 \(T(\beta)\) 也是一组标准正交基。

\(3 \to 4\) 是显然的,把 \(T(x)\) 拆开即可。

\(4 \to 1\) 证明:

对于 \(\forall x\),有 \(\langle x, x \rangle = \langle T(x), T(x) \rangle = \langle x, T^*T(x) \rangle\),故 \(\langle x, (T^*T - I)(x) \rangle = 0\)。故 \(T^*T = TT^* = I\)

酉算子和自轭算子的交是所有特征值为 \(\pm 1\) 的正规算子。

酉算子的 \(T\) - 不变子空间的正交空间仍然是 \(T\) - 不变子空间。反例是构造一条首尾均无限的链并考察其前一半。

\(A\)\(B\) 酉等价,当且仅当存在酉矩阵 \(Q\),使得 \(B = Q^*AQ\)

因为 \(Q^* = Q^{-1}\),所以酉等价依然可以看作是用不同基底刻画同一线性变换,不过对基底的关系加上了酉矩阵的限制。因此 \(\det(A) = \det(B)\),以及对于 \(\forall x\),都有 \(||Ax|| = ||Bx||\)

显然,\(T\) 正规当且仅当其与一个对角矩阵酉等价。

刚体运动(真的会考吗?)

copied from 小子要 blog。

\(f\) 是刚体运动当且仅当对于任意 \(x, y\)\(||x - y|| = ||f(x) - f(y)||\)

对于实内积空间 \(V\) 上的刚体运动 \(f : V \to V\)\(V\) 上存在唯一的正交算子 \(T\) 以及唯一的平移 \(g\) 满足 \(f = gT\)

\(\mathbb R^2\) 上,正交算子要么是 \(\det = 1\) 的旋转,要么是 \(\det = -1\) 的反射(反射轴过原点)。

\(\mathbb R^2\) 上旋转 \(\theta\) 度:\(\begin{pmatrix} \cos \theta & -\sin \theta \\ \sin \theta & cos \theta \\ \end{pmatrix}\);沿倾斜角为 \(\theta\) 的直线反射:\(\begin{pmatrix} \cos 2 \theta & \sin 2 \theta \\ \sin 2 \theta & -cos 2 \theta \\ \end{pmatrix}\)

正交投影与谱定理

对于内积空间 \(V\),令 \(V = W_1 \bigoplus W_2\)。则对于 \(\forall x\),存在唯一的 \(x_1 \in W_1\)\(x_2 \in W_2\),使得 \(x = x_1 + x_2\)。此时称 \(T(x) = x_1\)\(W_1\) 沿 \(W_2\) 的投影。

对于任意投影 \(T\),有 \(R(T) = W_1, N(T) = W_2\),所以 \(V = R(T) \bigoplus N(T)\)

如果 \(N(T) = R(T)^{\perp}\)\(R(T) = N(T)^{\perp}\),则称 \(T\) 为正交投影。在 \(V\)有限维 内积空间时,两个条件是等价的。

定理:\(T\) 是正交投影当且仅当 \(T^2 = T = T^*\)

证明:假设 \(T\) 是正交投影。因为 \(T\) 是投影,显然 \(T^2 = T\)。对于 \(\forall x, y \in V\),有

\[ \begin{aligned} \langle T(x), y \rangle & = \langle x_1, y_1 + y_2 \rangle \\ & = \langle x_1, y_1 \rangle \\ & = \langle x_1 + x_2, y_1 \rangle \\ & = \langle x, T(y) \rangle \end{aligned} \]

\(T = T^*\)

现在假设 \(T^2 = T = T^*\)。首先由 \(T^2 = T\) 得到 \(R(T) \cap N(T) = \{0\}\),再由 \(x = T(x) + (x - T(x))\) 得到 \(R(T) + N(T) = V\),于是 \(R(T) \bigoplus N(T) = V\)\(T\) 是投影。

接下来只需要证明 \(T\) 是正交投影,即证 \(N(T) = R(T)^{\perp}\)\(R(T) = N(T)^{\perp}\)。这个过程不难想但是有点难写,在此略过。

谱定理:设 \(T\) 的互不相同的特征值为 \(\lambda_1, \lambda_2, \cdots, \lambda_k\),对应的特征空间分别为 \(W_1, W_2, \cdots, W_k\),设 \(V\)\(W_i\) 的投影为 \(T_i\)。若 \(T\) 是正规的,那么以下命题成立:

  1. \(V = \bigoplus_{i = 1} ^ k W_i\)
  2. \(W_i^{\perp} = \bigoplus_{j \ne i} W_j\)
  3. \(T_i T_j = [i = j] T_i\)
  4. \(I = \sum_{i = 1} ^ k T_i\)
  5. \(T = \sum_{i = 1} ^ k \lambda_i T_i\)

结合之前的知识,这听起来有点像废话,所以我们略过证明。

定理:\(F = \mathbb C\) 时,\(T\) 正规当且仅当存在多项式 \(g\),使得 \(T^* = g(T)\)

证明:若 \(T\) 正规,令 \(T = \sum_i \lambda_i T_i\),则 \(T^* = \sum_i \overline{\lambda_i} T_i\)。我们构造多项式 \(g\),使得 \(g(\lambda_i) = \overline{\lambda_i}\) 即可。

若存在 \(g\),因为 \(Tg(T) = g(T)T\),显然 \(T\) 正规。

重点是利用正交投影的性质说明 \(g(T) = \sum_i g(\lambda_i) T_i\)

定理:\(F = \mathbb C\) 时,\(T\) 是酉算子当且仅当 \(T\) 正规,且 \(T\) 的所有特征值模长为 \(1\)

证明:不难发现 \(TT^* = \sum_i |\lambda_i|^2 T_i\)

定理:\(F = \mathbb C\) 时,\(T\) 自轭当且仅当 \(T\) 正规,且 \(T\) 的所有特征值都是实的。

证明:显然。

定理:每个 \(T_i\) 可以表示为关于 \(T\) 的多项式。

证明:构造多项式 \(g\),使得 \(g(\lambda_j) = [i = j]\) 即可。

正定 / 半正定算子

copied from 小子要 blog,其实是作业题。

\(T\) 正定 / 半正定,当且仅当其自轭,且对于 \(\forall x\)\(\langle T(x), x \rangle > 0 / \ge 0\)

一些性质:

\(T\) 正定 / 半正定当且仅当其所有特征值 $ \rangle 0 / \ge 0$。

\(T\) 半正定当且仅当存在方阵 \(B\) 使得 \([T] = B^*B\)

证明:若 \(T\) 半正定,令 \([T] = Q^*DQ\),将 \(D\) 分解为 \(\sqrt D \times \sqrt D\),加入两侧即可。

\([T] = B^*B\),显然 \(T\) 半正定。

若半正定算子 \(T, U\) 满足 \(T^2 = U^2\),则 \(T = U\)

证明:设 \(U^2(x) = T^2(x) = \lambda^2 (x)\)\(\lambda = 0\) 的情况是平凡的。对于 \(\lambda > 0\) 的情况,\((U + \lambda I)(U - \lambda I)(x) = 0\),只有 \(U(x) = \lambda x\)。同理 \(T(x) = \lambda x\),故 \(U = T\)

\(U, T\) 正定且可交换,则 \(UT\) 正定。

证明:找到一组由 \(U\)\(T\) 共同的的特征向量组成的标准正交基之后容易说明。

酉等价的算子正定性相同。

谱定理带来的一些不等式

\(T = \sum_i \lambda_i T_i, x = \sum_i x_i\),其中 \(x_i \in E_i\),则 \(\langle x, T(x) \rangle = \sum_i \langle x_i, \lambda_i x_i \rangle = \sum_i \lambda_i ||x_i||^2\)。而 \(||x||^2 = \sum ||x_i||^2\),所以我们能够得到 \(\frac{\langle x, T(x) \rangle}{||x||}\) 的一个范围,即 \([\min \lambda, \max \lambda]\)

\(T, U\) 自轭,\(T\) 的特征值在 \([\min \lambda, \max \lambda]\) 内、\(U\) 的特征值在 \([\min \mu, \max \mu]\) 内,则我们可以得到:\(T + U\) 的特征值在 \([\min \lambda + \min \mu, \max \lambda + \max \mu]\) 内,原因显然。

\(T^*T\) 的特征值在 \([\min \lambda, \max \lambda]\) 内,则 \(T\) 的特征值绝对值在 \([\sqrt {\min \lambda}, \sqrt {\max \lambda}]\) 内,原因是令 \(A = [T]\),则 \(\langle x, T(x) \rangle = x^* A^* A x = ||T(x)||^2\)

奇异值分解

奇异值分解用于对非方阵进行对角化。它把任意 \(m \times n\) 矩阵 \(A\) 分解为 \(U\Sigma V^*\),其中 \(U, V\) 是酉矩阵、\(\Sigma\)\(m \times n\) 对角矩阵,且对角元素单调不增。

做法:注意到 \(A^*A = V \Sigma^2 V^*\),而 \(A^*A\) 是半正定的,考虑用标准正交基底将其对角化,即令 \(A^*A = Q^*DQ\),则 \(V = Q, \Sigma = \sqrt D\);可以类似通过 \(AA^*\)\(U\),也可以根据 \(U \Sigma = AV\),考虑第 \(j\) 列得到 \(\sigma_j u_j = A v_j\)

半正定方阵的奇异值与特征值相同。

正定方阵的奇异值分解中 \(U = V\)

极分解

对于任意方阵 \(A\),存在唯一的分解 \(A = WP\),其中 \(W\) 是酉矩阵、\(P\) 是半正定矩阵。

构造:\(A = U \Sigma V^* = (UV^*) (V \Sigma V^*)\)

唯一性:\(A = WP = ZQ \Rightarrow Z^*W = QP^{-1}\)。于是 \(QP^{-1}\) 是酉矩阵,\(P = Q\)

双线性型与二次型

对于 \(H : V \times V \to F\),若 \(H(x, y)\)\(x, y\) 上都线性,则称 \(H\) 是双线性型。

对于有序基底 \(\beta\)\(H\) 的矩阵表示为 \(\psi_{\beta}(H)\) 满足 \(\psi_{\beta}(H)_{ij} = H(v_i, v_j)\)。对于 \(\forall x, y\),有 \(H(x, y) = [x]_{\beta}^t \psi_{\beta}(H) [y]_{\beta}\)

所以对于有序基底 \(\beta\)\(\gamma\),令 \(Q = [I]_{\gamma}^{\beta}\),则 \(\psi_{\gamma}(H) = Q^t \psi_{\beta}(H) Q\)

对于矩阵 \(A, B\),若存在矩阵 \(Q\),使得 \(B = Q^tAQ\),则称 \(A, B\) 相合。

相合是用不同的有序基底刻画同一个双线性型。

\(H\) 满足对于 \(\forall x, y \in V\)\(H(x, y) = H(y, x)\),则称 \(H\) 是对称的。

显然,\(H\) 对称当且仅当 \(\psi_{\beta}(H)\) 对称。

\(H\) 满足存在一个有序基底 \(\beta\),使得 \(\psi_{\beta}(H)\) 是对角矩阵,则称 \(H\) 是可对角化的。

定理:在特征不为 \(2\) 的域中,任意对称的 \(H\) 都可对角化。

证明:可以使用类似于高斯消元的方法对角化。但是不能进行交换两行的操作,主元为 \(0\) 时需要从后面加过来。

定理:在特征不为 \(2\) 的域中,任意对称的 \(H\) 都可以正交对角化

证明:先对角化再正交对角化即可。

对于函数 \(K : V \to F\),若存在双线性型 \(H\) 满足 \(K(x) = H(x, x)\),则称 \(K\) 为二次型。

在特征不为 \(2\) 的域中,\(H(x, y) = \frac 1 2(K(x + y) - K(x) - K(y))\)

定理:存在标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),使得对于任意 \(x = \sum_i a_i v_i\),有 \(K(x) = \sum_i \lambda_i a_i^2\)

证明:将 \(H\) 正交对角化即可。

一个用处是说明解集形如椭球。

Chapter 7 - Canonical Forms

若基底 \(\beta\) 使得

\[ [T]_{\beta} = \begin{pmatrix} A_1 & & & \\ & A_2 & & \\ & & \ddots & \\ & & & A_k \end{pmatrix} \]

其中 \(A_i\) 形如

\[ \begin{pmatrix} \lambda & 1 & & & & \\ & \lambda & 1 & & & \\ & & \lambda & & & \\ & & & \ddots & & \\ & & & & \lambda & 1 \\ & & & & & \lambda \\ \end{pmatrix} \]

\([T]_{\beta}\) 被称为 \(T\) 的 Jordan 标准形,\(\beta\) 被称为 Jordan 标准基,\(A_i\) 被称为 Jordan 块。

对于任意 \(\lambda\),若 \(x \ne 0\) 满足存在正整数 \(p\) 使得 \((T - \lambda I)^p(x)\),则称 \(x\)\(T\) 关于 \(\lambda\) 的广义特征向量。

\(K_{\lambda}\) 表示 \(T\) 关于 \(\lambda\) 的所有广义特征向量的集合。显然 \(K_{\lambda}\) 也是线性空间,称为广义特征空间。

因为 \((T - \lambda I)^p\) 是关于 \(T\) 的多项式,所以其和 \(T\) 是可交换的。因此 \((T - \lambda I)^p T(x) = T((T - \lambda I) ^ p(x))\),所以 \(K_{\lambda}\)\(T\) - 不变的。

定理:对于 \(\mu \ne \lambda\)\(T - \mu I\)\(K_{\lambda}\) 上的限制为单射。

证明:令 \(x \ne 0 \in K_{\lambda}\) 使得 \((T - \mu I)(x) = 0\)。令 \(p\) 为最小的正整数使得 \((T - \lambda I)^p(x) = 0\)。令 \(y = (T - \lambda I) ^ {p - 1} (x)\),则 \(y \ne 0 \in E_{\lambda}\)。同时因为 \((T - \mu I)(y) = (T - \mu I)(T - \lambda I) ^ {p - 1} (x) = (T - \lambda I) ^ {p - 1} (T - \mu I)(x) = 0\),所以 \(y \in E_{\mu}\)。故 \(y \in E_{\lambda} \cap E_{\mu} = \{0\}\),矛盾。所以为单射。

定理:对于 \(\mu \ne \lambda\)\(E_{\mu} \cap E_{\lambda} = \{0\}\)

证明:因为 \(T - \mu I\)\(K_{\lambda}\) 上的限制为单射,所以对于 \(\forall x \ne 0\) 和正整数 \(p\),有 \((T - \mu I)^p \ne 0\),即证。

定理:设 \(T\) 的特征值 \(\lambda\) 的代数重数为 \(m\),则

  1. \(\dim(K_{\lambda}) \le m\)
  2. \(K_{\lambda} = N((T - \lambda I)^m)\)

证明:

  1. 显然 \(T\)\(K_{\lambda}\) 上的限制的所有特征值都是 \(\lambda\),而 \(K_{\lambda}\)\(V\) 的子空间,显然 \(\dim(K_{\lambda}) \le m\)

  2. \(d = \dim(K_{\lambda})\),则 \(T\)\(K_{\lambda}\) 上的限制的特征多项式为 \(f(t) = (-1) ^ d (t - \lambda) ^ d\)。将 \(T\) 代入多项式,我们得到 \(f(T) = 0\),即 \((T - \lambda I) ^ d = T_0\)。而 \(d \le m\),显然 \(K_{\lambda} = N((T - \lambda I)^m)\)

定理:\(V = \sum_{i = 1} ^ k K_{\lambda_i}\)

证明:对 \(k\) 归纳。当 \(k = 1\) 时,\(f(t) = (-1)^m (t - \lambda_1)^m\),故 \((T - \lambda I)^m = T_0\),所以 \(K_{\lambda_1} = V\)

考虑 \(k > 1\) 的情况,怎么这么长,不证了。

于是我们可以得到:\(V = \bigoplus_{i = 1} ^ k K_{\lambda_i}\),并且每个 \(\dim(K_{\lambda_i})\) 都等于其代数重数。于是 \(V\) 必然可以分解为 Jordan 标准形。

好像 xy 上课讲了很高级的做法,有没有老哥教教啊????

Jordan 标准基的计算:

  1. 对于每个 \(K_{\lambda}\):求出 \(E_{\lambda}\) 的基底,然后尝试解方程扩展到层数高的基底。

  2. 先根据 Jordan 标准基的结构求出 \(J\),然后通过 \(QJ = AQ\) 解出 \(Q\)

The Minimal Polynomial

若多项式 \(p\) 满足 \(p(T) = T_0\),则称其为零化多项式。

最小多项式是所有零化多项式中度数最小且首项为 \(1\) 的多项式。不难发现它是唯一的。

求最小多项式:

  1. 方法一:求出特征多项式,逐个检查每个因式是否能去掉。
  2. 方法二:求出 Jordan 标准形,对每个特征值选最大的 Jordan 块作为次数。

\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)

posted @ 2024-01-06 14:55  Scintilla06  阅读(169)  评论(2编辑  收藏  举报