500min 慢通线代
免责声明:本文是博主复习线代期末考试所用,并不适合所有人阅读,也并不保证所有内容完全正确。
教材:Linear Algebra, forth edition by S. H. Friedberg, A. J. Insel, L. E. Spence
本文将包含:
- 教材中大部分的定义;
- 教材中博主认为重要的定理,不那么显然的定理会带上简略证明过程;
- 博主的总结和浅薄的理解。
博主很懒,所以本文 latex 中不会出现 \mathbf
或 \mathsf
之类的字体,会略微降低阅读体验。
默认本文涉及到的所有变换均为线性变换。
关于有限维:涉及到 \(\dim\)、有序基底或者矩阵等的线性空间默认加上有限维的前提。对于其他限制了有限维的情况,会额外标注。
Chapter 1 - Vector Spaces
域 \(F\) 上的线性空间 \(V\)
两种运算:加法、数乘。对于 \(\forall x, y \in V\),存在唯一的 \(x + y \in V\);对于 \(\forall x \in V, a \in F\),存在唯一的 \(ax \in V\)。
需要满足八条性质:加法交换律、加法结合律、存在零元、存在加法逆元、存在幺元、数乘结合律、向量加法对数乘分配律、标量加法对数乘的分配律。
这些定义可以导出一些常用的代数性质。
子空间
定义无需多言。
判定就是对于 \(\forall x, y \in W\),检查是否有 \(cx + y \in W\),其中 \(c \in F\)。
子空间的交也是子空间。
线性组合
定义无需多言。
\(\text{span}(S)\):\(S\) 中元素的所有线性组合。显然其也是子空间。
若 \(\text{span}(S) = V\),则称 \(S\) 生成 \(V\)。
线性相关 / 无关
定义无需多言。
基底
定义无需多言。
从一个生成 \(V\) 的有限集合 \(S\) 中构造基底:逐个添加并检查是否线性无关。
Replacement Theorem:设 \(|G| = n\),\(V\) 是 \(G\) 生成的线性空间。令 \(L\) 为 \(V\) 的一个大小为 \(m\) 的线性无关子集,则存在 \(G\) 的大小为 \(n - m\) 的子集 \(H\),使得 \(\text{span}(L \cup H) = V\)。可以对 \(m\) 归纳证明。
\(V\) 的任意基底大小相同,可以通过 Replacement Theorem 证明。这个相同的大小记为 \(\dim(V)\)。
\(V\) 中任意线性无关子集可以被扩展为一个基底。这是后面很多证明中常用的思路。
Chapter 2 - Linear Transformations and Matrices
线性变换
称 \(T : V \to W\) 是线性变换当且仅当对于 \(\forall x, y \in V\) 有 \(T(cx + y) = cT(x) + y\)。
定义 \(T\) 的值域 \(R(T) = \{T(x) \mid x \in V\}\)、零空间 \(N(T) = \{x \mid T(x) = 0\}\)。显然二者分别是 \(W\) 和 \(V\) 的子空间。
记 \(\text{rank}(T) = \dim(R(T)), \text{nullity}(T) = \dim(N(T))\),则 \(\dim(V) = \text{rank}(T) + \text{nullity}(T)\)。可以通过找到 \(N(T)\) 的一组基底然后扩展的方法证明。
矩阵表示
把基底的元素标号,可以得到有序基底。
对于向量 \(x\) 和有序基底 \(\beta\),将用 \(\beta\) 表示 \(x\) 的系数按顺序排成一列,可以得到 \(x\) 在 \(\beta\) 下的矩阵表示,记为 \([x]_{\beta}\)。
对于线性变换 \(T : V \to W\),令 \(\beta, \gamma\) 分别为 \(V, W\) 的一组有序基底,定义 \([T]_{\beta}^{\gamma}\) 为一个 \(\dim(W) \times \dim(V)\) 的矩阵,其中第 \(j\) 列为 \([T(\beta_j)]_{\gamma}\)。当 \(\beta = \gamma\) 时右上角可以省略 \(\gamma\)。
记 \(L(V, W)\) 为所有 \(V \to W\) 的线性变换组成的集合,则 \(L(V, W)\) 也是一个线性空间,这意味着线性变换进行一些基础运算之后还是线性变换。
对于任意 \(x \in V\),有 \([T(x)]_{\gamma} = [T]_{\beta}^{\gamma} [x]_{\beta}\)。
线性变换复合后也依然是线性变换,有 \([UT]_{\alpha}^{\gamma} = [U]_{\beta}^{\gamma}[T]_{\alpha}^{\beta}\)。
此后若干定义会同时对线性变换和矩阵定义,不过基本是一样的。因为矩阵需要依赖基底而线性变换不用,我们可以用线性变换来理解矩阵,并证明矩阵的一些性质。
逆
定义无需多言。
\(T\) 可逆当且仅当其是双射,即同时为单射和满射。
若 \(T : V \to W\) 可以,则称 \(V, W\) 同构。显然,在同一域 \(F\) 上的线性空间 \(V, W\) 同构当且仅当 \(\dim(V) = \dim(W)\)。
变换基底
令 \(I : V \to V\) 为单位变换,且令 \(\beta, \beta'\) 为两组有序基底,那么
由此我们可以定义矩阵的相似:称 \(n \times n\) 矩阵 \(A\) 与 \(B\) 相似,当且仅当存在可逆矩阵 \(Q\),使得 \(B = Q^{-1}AQ\)。相似矩阵是同一线性变换在不同有序基底下的表示。
注意到 \(\text{tr}(AB) = \text{tr}(BA)\),所以相似的矩阵有相同的迹。事实上,考察 \(A\) 的特征多项式,我们可以发现 \(\text{tr}(A)\) 实际上就是其对应线性变换的特征值之和,与选取的有序基底无关,所以上述性质自然成立。
对偶空间
对于 \(F\) 上的线性空间 \(V\),定义 \(V\) 的对偶空间为 \(V^* = L(V, F)\)。
显然 \(\dim(V^*) = \dim(V)\)。令 \(n = \dim(V^*)\),则 \(V^*\) 的一组基底为 \(\{f_1, f_2, \cdots, f_n\}\),其中 \(f_i(\beta_j) = [i = j]\)。
对于 \(T : V \to W\),定义 \(T^t : W^* \to V^*\),满足 \(T^t(g) = gT\)。不难发现 \([T^t]_{\gamma*}^{\beta*} = ([T]_{\beta}^{\gamma})^t\)。
类似定义 \(V^{**}\)。定义 \(\hat x : V^* \to F\) 满足 \(\hat x(f) = f(x)\),那么 \(\psi : V \to V^{**}\) 满足 \(\psi(x) = \hat x\) 是双射。
可以发现,任意一组 \(V\) 的有序基底都可以与 \(V^*\) 或 \(V^{**}\) 的一组有序基底对应。
Chapter 3 - Elementary Matrix Operations and Systems of Lienar Equations
LU 分解
一个前提条件是高消的过程中没有交换两行的操作。
目标是找到 \(A = LU\),使得 \(L\) 是下三角矩阵,而 \(U\) 是上三角矩阵。在高消的过程中直接记录即可,因为保证了不会交换两行所以合法。
于是我们在解 \(Ax = b\) 时只需要分别解 \(Ly = b\) 和 \(Ux = y\)。
其他
一些和秩、逆或者行列式有关的证明或操作可以考虑分解为初等矩阵。
线性变换复合之后秩不会比任意一个大。
Chapter 4 - Determinants
定义无需多言。教材上的定义是递归式的;一种等价的定义是排列式的。
\(\det(AB) = \det(A)\det(B)\),这个可以通过将 \(A\) 分解为初等矩阵后根据行列式的基本性质证明。一个简单的推论是:当 \(A\) 可逆时 \(\det(A^{-1}) = \det(A)^{-1}\)。
\(A, B\) 不是方阵的情况见我 之前的博客,但是大概率没什么用。
\(\det(A^t) = \det(A)\),同样通过将 \(A\) 分解为初等矩阵后证明。
克拉默法则:设 \(A\) 为 \(n \times n\) 的可逆矩阵,则 \(Ax = b\) 有唯一解。记 \(M_k\) 为将 \(A\) 的第 \(k\) 列替换为 \(b\) 得到的矩阵,则
非方阵
证明:令 \(x\) 为唯一解。记 \(X_k\) 为将 \(I\) 的第 \(k\) 列替换为 \(X\) 得到的矩阵,则 \(AX_k = M_k\)。于是
Chapter 5 - Diagonalization
特征值、特征向量、特征空间
若 \(T : V \to V\),则称 \(T\) 为 \(V\) 上的线性算子。
对于线性算子 \(T\) 和 \(x \in V, x \ne 0\),若 \(T(x) = \lambda x\),则称 \(\lambda\) 为 \(T\) 的特征值,且 \(x\) 为其对应的特征向量。
给定有序基底 \(\beta\),令 \(A = [T]_{\beta}\),则 \(\lambda\) 为 \(T\) 的特征值当且仅当存在 \(x \ne 0\) 使得 \(Ax = \lambda x\),即 \(A - \lambda I\) 的零空间不为 \(\{0\}\),即 \(\det(A - \lambda I) = 0\)。称 \(f(t) = \det(A - tI)\) 为 \(T\) 的特征多项式。
不同的特征值对应的特征向量线性无关。形式化地,设 \(T(x_i) = \lambda_i x_i(i = 1, 2, \cdots, k)\),其中 \(\lambda_i\) 两两不同,则 \(\{x_1, x_2, \cdots, x_k\}\) 线性无关。证明可以考虑对 \(k\) 归纳,假设 \(\sum a_i x_i = 0\),同时对两侧施加 \(T - \lambda_k I\) 算子即可导出矛盾。
在 \(\mathbb C\) 中,\(f(t) = 0\) 有 \(n\) 个解。对于任意解 \(\lambda\),称其在 \(n\) 个解中出现的次数为其的代数重数。令 \(\lambda\) 的特征空间为 \(E_{\lambda}\) 为 \(N(T - \lambda I)\),称 \(\dim(E_{\lambda})\) 为其的几何重数。
几何重数介于 \(1\) 和代数重数之间。证明:考虑取 \(E_{\lambda}\) 的一个有序基底,并扩展为一个 \(V\) 的基底,求特征多项式可以发现 \((\lambda - t)^{\dim(E_{\lambda})}\) 是 \(f(t)\) 的一个因式。
\(T\) 可对角化当且仅当其所有特征值的几何重数等于代数重数。
如果在 \(\mathbb R\) 上讨论这些问题,还需要考虑 \(f(t) = 0\) 的解不都是实数的情况。
若 \(T\) 可对角化,则 \(V\) 为 \(T\) 的所有特征空间的直和。
\(T\) - 不变子空间
定义无需多言。
设 \(W\) 是 \(V\) 的 \(T\) - 不变子空间,\(T_W\) 是把定义域缩减到 \(W\) 后的线性算子,则 \(T_W\) 的特征多项式 \(f_W\) 是 \(T\) 的特征多项式的因式。
证明:方法和证明几何重数介于 \(1\) 和代数重数之间的方法类似。取 \(W\) 的一个有序基底,并将其扩展为 \(V\) 的一个有序基底,则
其中 \(B_1\) 对应 \(W\) 的有序基底部分。则 \(\det(A - tI) = \det(B_1 - tI)\det(B_3 - tI)\)。
一个类似的结论:若 \(V = W_1 \bigoplus W_2 \cdots \bigoplus W_k\),其中 \(W_i\) 是 \(T\) - 不变子空间,记 \(f_i\) 为 \(T_{W_i}\) 的特征多项式,则 \(f = \prod f_i\)。对 \(k\) 归纳证明即可。
对于 \(x\),称 \(\text{span}(\{x, T(x), T^2(x), \cdots\})\) 为 \(x\) 生成的 \(T\) - 循环子空间。记其为 \(W\),若 \(W\) 为有限维,记 \(k = \dim(W)\),则 \(\{x, T(x), \cdots, T^{k-1}(x)\}\) 是 \(W\) 的一个基底。设 \(\sum_{i = 0} ^ {k - 1} a_i T^i(x) + T^k(x) = 0\),则 \(T_W\) 的特征多项式是 \((-1)^k(\sum_{i = 0} ^ {k - 1} a_i t^i + t^k)\)。这个考察一下 \([T]_{\beta}\) 然后对 \(k\) 归纳一下即可。
Cayley–Hamilton Theorem:\(f(T) = T_0\),其中 \(T_0(x) = 0\)。证明就是顺水推舟:对于 \(\forall x \in V\),考虑 \(x\) 生成的 \(T\) - 循环子空间 \(W\),则根据其特征多项式的形式能直接得出 \(f_W(T_W)(x) = 0\);又因为其是 \(V\) 的子空间,所以 \(f_W\) 是 \(f\) 的因式,故 \(f(T)(x) = 0\)。
Chapter 6 - Inner Product Spaces
大的要来了。
内积
域 \(F\) 上的线性空间 \(V\) 上的内积 \(\langle x, y \rangle\) 是满足以下条件的二元函数:
- \(\langle x + z, y \rangle = \langle x, y \rangle + \langle z, y \rangle\);
- \(\langle cx, y \rangle = c\langle x, y \rangle\);
- \(\langle x, y \rangle = \overline{\langle y, x \rangle}\);
- 若 \(x \ne 0\),则 \(\langle x, x \rangle > 0\)。
设 \(x = (a_1, a_2, \cdots, a_n)^t, y = (b_1, b_2, \cdots, b_n)^t\)。定义 \(\langle x, y \rangle = \sum_{i = 1} ^ n a_i\overline{b_i}\) 为 \(F^n\) 上的标准内积。
对于 \(m \times n\) 的矩阵 \(A\),定义 \(A^*\) 为一个 \(n \times m\) 的矩阵,满足 \((A^*)_{ij} = \overline{A_{ji}}\)。
带有特定内积运算的线性空间 \(V\) 称为内积空间。当 \(F = \mathbb C\) 时,\(V\) 称为复内积空间;当 \(F = \mathbb R\) 时,\(V\) 称为实内积空间。
若对于 \(\forall x\) 有 \(\langle x, y \rangle = \langle x, z \rangle\),则 \(y = z\)。
定义向量 \(x\) 的模长为 \(\sqrt{\langle x, x \rangle}\)。
柯西不等式:\(|\langle x, y \rangle| \le ||x|| \cdot ||y||\)。
证明:若 \(y = 0\) 则结论显然成立。否则考虑
令 \(c = \frac{\langle x, y \rangle}{\langle y, y \rangle}\),则不等式变为
即证。
三角不等式:\(||x + y|| \le |x| + |y|\)。可以拆开左侧然后通过柯西不等式证明。
正交
称 \(x, y\) 正交,当且仅当 \(\langle x, y \rangle = 0\)。
称 \(x\) 是单位向量,当且仅当 \(||x|| = 1\)。
称 \(V\) 的子集 \(S\) 是标准正交的,当且仅当其包含两两正交的单位向量。
定理:设 \(S = \{v_1, v_2, \cdots, v_k\}\) 是 \(V\) 的一个正交子集,\(x \in \text{span}(S)\)。则
证明:令 \(x = \sum_i a_i v_i\)。则
由此也可以得出,若 \(0 \not\in S\),则 \(S\) 是线性无关的。
证明:若 \(\sum_i a_i v_i = 0\),则对于 \(\forall p \in [1, k]\),有 \(\langle \sum_i a_i v_i, v_p \rangle = a_p ||v_p||^2 = 0\),故 \(a_p = 0\)。
定理:设 \(S = \{w_1, w_2, \cdots, w_n\}\) 是 \(V\) 的一个线性无关子集,我们可以通过如下方式得到正交子集 \(S' = \{v_1, v_2, \cdots, v_n\}\),使得 \(\text{span}(S') = \text{span}(S)\):对于 \(k = 1, 2, \cdots, n\),令
证明可以考虑直接对 \(k\) 归纳证明。
上面的过程被称为 Gram–Schmidt 过程。
于是,对于任意有限维内积空间 \(V\),我们总能找到一组标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),则对于 \(\forall x \in V\),有
对于任意线性算子 \(T\),我们也能直接得到
对于 \(V\) 的标准正交子集 \(\beta = \{v_1, v_2, \cdots\}\) 和 \(x \in V\),称 \(v_i\) 为 \(\langle x, v_i \rangle\) 为 \(x\) 关于 \(\beta\) 的第 \(i\) 个傅里叶系数。
对于 \(V\) 的非空子集 \(S\),令 \(S^{\perp} = \{x \in V : \forall y \in S, \langle x, y \rangle = 0\}\)。显然 \(S^{\perp}\) 是 \(V\) 的子空间。
定理:令 \(W\) 是 \(V\) 的一个 有限维 子空间,\(y \in V\),则存在唯一的 \(u \in W\) 和 \(z \in W^{\perp}\),满足 \(y = u + z\)。令 \(\beta = \{v_1, v_2, \cdots, v_k\}\) 为 \(W\) 的一组标准正交基,则
证明:\(u \in W\) 和 \(z = y - u \in W^{\perp}\) 很显然,直接用内积证明即可。注意到 \(W \cap W^{\perp} = \{0\}\),于是假设 \(y = u + z = u' + z'\),则 \(u - u' \in W, z' - z \in W^{\perp}\),而 \(u - u' = z' - z\),故 \(u = u', z = z'\)。
从几何上理解,\(u\) 是 \(W\) 中距离 \(y\) 最近的点。可以通过对于 \(\forall x \in W\),有 \(||y - x||^2 = ||(u - x) + z||^2 = ||u - x||^2 + ||z||^2 \ge ||z||^2\) 来证明。
\(u\) 被称为 \(y\) 在 \(W\) 上的正交投影。
对于内积空间 \(V\) 和其 有限维 子空间 \(W\),有 \(V = W \bigoplus W^{\perp}\)。
伴随
定理:令 \(V\) 为 有限维 内积空间。任意 \(V \to F\) 的线性变换可以看作求与特殊向量的内积。形式化地,令 \(g : V \to F\),则存在 \(y \in V\),使得对于 \(\forall y \in V\) 有 \(g(x) = \langle x, y \rangle\)。
证明:令 \(\beta = \{v_1, v_2, \cdots, v_n\}\) 为 \(V\) 的一组标准正交基。直接令 \(y = \sum_i \overline{g(v_i)} v_i\) 即可,正确性应该是显然的。
同时,显然这样的 \(y\) 是唯一的。
定理:令 \(V\) 为 有限维 内积空间,\(T\) 为 \(V\) 上的线性算子。存在唯一的线性算子 \(T^*\),使得对于 \(\forall x, y \in V\) 有 \(\langle T(x), y \rangle = \langle x, T^*(y) \rangle\)。
证明:首先考虑固定 \(y\),令 \(g(x) = \langle T(x), y \rangle\)。根据上一个定理,存在 \(y' \in V\) 使得对于 \(\forall x \in V\) 有 \(g(x) = \langle x, y' \rangle\),令 \(T^*(x) = y'\) 即可。
接下来我们需要证明 \(T^*\) 是线性的。因为对 \(\forall x\) 有
所以 \(T^*(cy_1 + y_2) = cT^*(y_1) + T^*(y_2)\),因此 \(T^*\) 是线性的。因为对于每个 \(y\),\(T^*(y)\) 有唯一的取值,所以 \(T^*\) 是唯一的。
\(T^*\) 称为 \(T\) 的伴随算子。
定理:令 \(V\) 为 有限维 内积空间,\(T\) 为 \(V\) 上的线性算子,\(\beta = \{v_1, v_2, \cdots, v_n\}\) 为 \(V\) 的一组标准正交基。则 \([T^*]_{\beta} = [T]_{\beta}^*\)。
证明:\([T^*]_{\beta_{ij}} = \langle T^*(v_j), v_i \rangle = \overline{\langle v_i, T^*(v_j) \rangle} = \overline{\langle T(v_i), v_j \rangle} = \overline{[T]_{\beta_{ji}}}\)。
由此可见,\(T^{**} = T\)。
最小二乘法
平面上有 \(n\) 个点 \((t_1, y_1), (t_2, y_2), \cdots, (t_n, y_n)\),其中 \(t_i\) 两两不同。需要用一条直线 \(y = ct + d\) 拟合这 \(n\) 个点,使得误差最小。误差定义为 \(\sum_i (y_i - c t_i - d)^2\)。
做法:令
我们实际上要最小化 \(||y - Ax||^2\)。我们不妨考虑 \(A\) 是任意 \(m \times n\) 矩阵的情况,此时我们在 \(R(A)\) 中找离 \(y\) 最近的点,所以最优的 \(x\) 满足 \(y - Ax \perp R(A)\)。也就是 \(A^*(y - Ax) = 0\),可以理解为 \(x\) 与 \(A\) 的每一列与 \(y - Ax\) 的内积为 \(0\)。所以最优的 \(x\) 满足 \(A^*Ax = A^*y\)。
注意到对于 \(\forall x \ne 0\),有 \(A^*Ax = 0 \Leftrightarrow x^*A^*Ax = 0 \Leftrightarrow \langle Ax, Ax \rangle = 0 \Leftrightarrow Ax = 0\),显然 \(N(A^*A) = N(A)\),所以当 \(\text{rank}(A) = n\) 时,\(x = (A^*A)^{-1} A^* y\)。
书上证明 \(\text{rank}(A^*A) = \text{rank}(A)\) 的表述方式是首先注意到 \(\langle Ax, y \rangle _m = \langle x, A^*y \rangle _n\),然后说明 \(\langle A^*Ax, x \rangle _n = \langle Ax, Ax \rangle _m\),和上面方法的区别只是表述方式的不同。
线性方程组的最小解
同理,设一个特解为 \(u\),则解空间为 \(u + N(A)\)。最优解需要与 \(N(A)\) 垂直,因为 \(N(A)^{\perp} = R(A^*)\) 所以最优解为 \(R(A^*)\) 中的解。更具体地,\(AA^*x = b\) 有解 \(x = x'\),最优解即 \(x = A^* x'\)。显然解存在且唯一。
正规算子、自轭算子
定理:若线性算子 \(T\) 有特征值 \(\lambda\),则 \(T^*\) 有特征值 \(\overline{\lambda}\)。
证明:若存在 \(x \ne 0\) 使得 \(T(x) = \lambda x\),则对于 \(\forall y \in V\),有
由此可见,\(x \perp R(T^* - \overline {\lambda} I)\),即 \(N(T^* - \overline {\lambda} I) \ne \{0\}\),故 \(\overline {\lambda}\) 是 \(T^*\) 的特征值。
舒尔定理:令 \(V\) 为 有限维 内积空间,\(T\) 为 \(V\) 上的线性算子,若 \(T\) 的特征多项式可分解,则存在标准正交基 \(\beta\) 使得 \([T]_{\beta}\) 是上三角矩阵。
证明:取一组使得 \([T]_{\beta}\) 是对角矩阵的基底,然后对其执行 Gram–Schmidt 过程即可。
若 \(TT^* = T^*T\),则称 \(T\) 为正规算子。
下面介绍一些正规算子的基本性质:
定理:若 \(T\) 是正规算子,则对于 \(\forall x\) 有 \(||T(x)|| = ||T^*(x)||\)。
证明:
定理:若 \(T\) 是正规算子,则对于 \(\forall c \in F\),\(T - cI\) 也是正规算子。
证明:直接拆开就行。
定理:若 \(T\) 是正规算子,\(T(x) = \lambda x\),则 \(T^*(x) = \overline{\lambda} x\)。
证明:令 \(U = T - \lambda I\),由上一个定理立得 \(U\) 正规,于是结论显然。
定理:若 \(T\) 是正规算子,则 \(T\) 的任意两个不同的特征空间垂直。
一个推论是,\(N(T) = N(T^*)\),当 \(V\) 为 有限维 内积空间时 \(R(T) = R(T^*)\)。
证明:设 \(T(x_1) = \lambda_1 x_1, T(x_2) = \lambda_2 x_2(\lambda_1 \ne \lambda_2)\),则
定理:\(\mathbb C\) 上的内积空间 \(V\) 上的线性算子 \(T\) 正规,当且仅当存在 \(V\) 的标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),使得 \(v_i\) 是 \(T\) 的特征向量。
证明:假设 \(T\) 正规,则根据舒尔定理,存在一组标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),使得 \(A = [T]_{\beta}\) 是上三角矩阵。接下来归纳证明 \(A\) 是对角矩阵,核心公式为
其中 \(1 \le j < k \le n\),利用了 \(T\) 和 \(T^*\) 共享特征向量的性质。
若存在 \(V\) 的标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),使得 \(v_i\) 是 \(T\) 的特征向量,则 \(T\) 正规是显然的。
若 \(T = T^*\),则称 \(T\) 为自轭算子。
若 \(T\) 自轭,显然 \(T\) 正规,因此 \(T\) 和 \(T^*\) 共享特征向量。因此对于 \(T\) 的任意特征值 \(\lambda\) 有
因此 \(T\) 的所有特征值为实数。
定理:\(\mathbb R\) 上的内积空间 \(V\) 上的线性算子 \(T\) 自轭,当且仅当存在 \(V\) 的标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),使得 \(v_i\) 是 \(T\) 的特征向量。
证明:和上一个定理的证明没什么区别。只在 \(\mathbb R\) 上成立的关键条件是是 \(D^* = D\)。
可以看出,对于 \(R\) 上的内积空间 \(V\),正规和自轭等价。
酉算子
若对 \(\forall x \in V\) 有 \(||T(x)|| = ||x||\),则称 \(T\) 为酉算子(\(F = \mathbb C\))或正交算子 \(F = \mathbb R\)。
以下四个命题等价:
- \(TT^* = T^*T = I\);
- 对 \(\forall x, y \in V\),有 \(\langle T(x), T(y) \rangle = \langle x, y \rangle\);
- 令 \(\beta = \{v_1, v_2, \cdots, v_n\}\) 为 \(V\) 的一组标准正交基,则 \(T(\beta)\) 也是一组标准正交基;
- 对 \(\forall x \in V\) 有 \(||T(x)|| = ||x||\)。
\(1 \to 2\) 证明:
对 \(\forall x, y \in V\),有
\(2 \to 3\) 证明:
对 \(\forall 1 \le i, j \le n\),有 \(\langle T(v_i), T(v_j) \rangle = \langle v_i, v_j \rangle = [i = j]\)。显然 \(T(\beta)\) 也是一组标准正交基。
\(3 \to 4\) 是显然的,把 \(T(x)\) 拆开即可。
\(4 \to 1\) 证明:
对于 \(\forall x\),有 \(\langle x, x \rangle = \langle T(x), T(x) \rangle = \langle x, T^*T(x) \rangle\),故 \(\langle x, (T^*T - I)(x) \rangle = 0\)。故 \(T^*T = TT^* = I\)。
酉算子和自轭算子的交是所有特征值为 \(\pm 1\) 的正规算子。
酉算子的 \(T\) - 不变子空间的正交空间仍然是 \(T\) - 不变子空间。反例是构造一条首尾均无限的链并考察其前一半。
称 \(A\) 与 \(B\) 酉等价,当且仅当存在酉矩阵 \(Q\),使得 \(B = Q^*AQ\)。
因为 \(Q^* = Q^{-1}\),所以酉等价依然可以看作是用不同基底刻画同一线性变换,不过对基底的关系加上了酉矩阵的限制。因此 \(\det(A) = \det(B)\),以及对于 \(\forall x\),都有 \(||Ax|| = ||Bx||\)。
显然,\(T\) 正规当且仅当其与一个对角矩阵酉等价。
刚体运动(真的会考吗?)
copied from 小子要 blog。
称 \(f\) 是刚体运动当且仅当对于任意 \(x, y\) 有 \(||x - y|| = ||f(x) - f(y)||\)。
对于实内积空间 \(V\) 上的刚体运动 \(f : V \to V\),\(V\) 上存在唯一的正交算子 \(T\) 以及唯一的平移 \(g\) 满足 \(f = gT\)。
在 \(\mathbb R^2\) 上,正交算子要么是 \(\det = 1\) 的旋转,要么是 \(\det = -1\) 的反射(反射轴过原点)。
\(\mathbb R^2\) 上旋转 \(\theta\) 度:\(\begin{pmatrix} \cos \theta & -\sin \theta \\ \sin \theta & cos \theta \\ \end{pmatrix}\);沿倾斜角为 \(\theta\) 的直线反射:\(\begin{pmatrix} \cos 2 \theta & \sin 2 \theta \\ \sin 2 \theta & -cos 2 \theta \\ \end{pmatrix}\)。
正交投影与谱定理
对于内积空间 \(V\),令 \(V = W_1 \bigoplus W_2\)。则对于 \(\forall x\),存在唯一的 \(x_1 \in W_1\) 和 \(x_2 \in W_2\),使得 \(x = x_1 + x_2\)。此时称 \(T(x) = x_1\) 为 \(W_1\) 沿 \(W_2\) 的投影。
对于任意投影 \(T\),有 \(R(T) = W_1, N(T) = W_2\),所以 \(V = R(T) \bigoplus N(T)\)。
如果 \(N(T) = R(T)^{\perp}\) 且 \(R(T) = N(T)^{\perp}\),则称 \(T\) 为正交投影。在 \(V\) 为 有限维 内积空间时,两个条件是等价的。
定理:\(T\) 是正交投影当且仅当 \(T^2 = T = T^*\)。
证明:假设 \(T\) 是正交投影。因为 \(T\) 是投影,显然 \(T^2 = T\)。对于 \(\forall x, y \in V\),有
故 \(T = T^*\)。
现在假设 \(T^2 = T = T^*\)。首先由 \(T^2 = T\) 得到 \(R(T) \cap N(T) = \{0\}\),再由 \(x = T(x) + (x - T(x))\) 得到 \(R(T) + N(T) = V\),于是 \(R(T) \bigoplus N(T) = V\),\(T\) 是投影。
接下来只需要证明 \(T\) 是正交投影,即证 \(N(T) = R(T)^{\perp}\) 且 \(R(T) = N(T)^{\perp}\)。这个过程不难想但是有点难写,在此略过。
谱定理:设 \(T\) 的互不相同的特征值为 \(\lambda_1, \lambda_2, \cdots, \lambda_k\),对应的特征空间分别为 \(W_1, W_2, \cdots, W_k\),设 \(V\) 到 \(W_i\) 的投影为 \(T_i\)。若 \(T\) 是正规的,那么以下命题成立:
- \(V = \bigoplus_{i = 1} ^ k W_i\);
- \(W_i^{\perp} = \bigoplus_{j \ne i} W_j\)
- \(T_i T_j = [i = j] T_i\);
- \(I = \sum_{i = 1} ^ k T_i\);
- \(T = \sum_{i = 1} ^ k \lambda_i T_i\)。
结合之前的知识,这听起来有点像废话,所以我们略过证明。
定理:\(F = \mathbb C\) 时,\(T\) 正规当且仅当存在多项式 \(g\),使得 \(T^* = g(T)\)。
证明:若 \(T\) 正规,令 \(T = \sum_i \lambda_i T_i\),则 \(T^* = \sum_i \overline{\lambda_i} T_i\)。我们构造多项式 \(g\),使得 \(g(\lambda_i) = \overline{\lambda_i}\) 即可。
若存在 \(g\),因为 \(Tg(T) = g(T)T\),显然 \(T\) 正规。
重点是利用正交投影的性质说明 \(g(T) = \sum_i g(\lambda_i) T_i\)。
定理:\(F = \mathbb C\) 时,\(T\) 是酉算子当且仅当 \(T\) 正规,且 \(T\) 的所有特征值模长为 \(1\)。
证明:不难发现 \(TT^* = \sum_i |\lambda_i|^2 T_i\)。
定理:\(F = \mathbb C\) 时,\(T\) 自轭当且仅当 \(T\) 正规,且 \(T\) 的所有特征值都是实的。
证明:显然。
定理:每个 \(T_i\) 可以表示为关于 \(T\) 的多项式。
证明:构造多项式 \(g\),使得 \(g(\lambda_j) = [i = j]\) 即可。
正定 / 半正定算子
copied from 小子要 blog,其实是作业题。
称 \(T\) 正定 / 半正定,当且仅当其自轭,且对于 \(\forall x\) 有 \(\langle T(x), x \rangle > 0 / \ge 0\)。
一些性质:
\(T\) 正定 / 半正定当且仅当其所有特征值 $ \rangle 0 / \ge 0$。
\(T\) 半正定当且仅当存在方阵 \(B\) 使得 \([T] = B^*B\)。
证明:若 \(T\) 半正定,令 \([T] = Q^*DQ\),将 \(D\) 分解为 \(\sqrt D \times \sqrt D\),加入两侧即可。
若 \([T] = B^*B\),显然 \(T\) 半正定。
若半正定算子 \(T, U\) 满足 \(T^2 = U^2\),则 \(T = U\)。
证明:设 \(U^2(x) = T^2(x) = \lambda^2 (x)\)。\(\lambda = 0\) 的情况是平凡的。对于 \(\lambda > 0\) 的情况,\((U + \lambda I)(U - \lambda I)(x) = 0\),只有 \(U(x) = \lambda x\)。同理 \(T(x) = \lambda x\),故 \(U = T\)。
若 \(U, T\) 正定且可交换,则 \(UT\) 正定。
证明:找到一组由 \(U\) 和 \(T\) 共同的的特征向量组成的标准正交基之后容易说明。
酉等价的算子正定性相同。
谱定理带来的一些不等式
令 \(T = \sum_i \lambda_i T_i, x = \sum_i x_i\),其中 \(x_i \in E_i\),则 \(\langle x, T(x) \rangle = \sum_i \langle x_i, \lambda_i x_i \rangle = \sum_i \lambda_i ||x_i||^2\)。而 \(||x||^2 = \sum ||x_i||^2\),所以我们能够得到 \(\frac{\langle x, T(x) \rangle}{||x||}\) 的一个范围,即 \([\min \lambda, \max \lambda]\)。
若 \(T, U\) 自轭,\(T\) 的特征值在 \([\min \lambda, \max \lambda]\) 内、\(U\) 的特征值在 \([\min \mu, \max \mu]\) 内,则我们可以得到:\(T + U\) 的特征值在 \([\min \lambda + \min \mu, \max \lambda + \max \mu]\) 内,原因显然。
若 \(T^*T\) 的特征值在 \([\min \lambda, \max \lambda]\) 内,则 \(T\) 的特征值绝对值在 \([\sqrt {\min \lambda}, \sqrt {\max \lambda}]\) 内,原因是令 \(A = [T]\),则 \(\langle x, T(x) \rangle = x^* A^* A x = ||T(x)||^2\)。
奇异值分解
奇异值分解用于对非方阵进行对角化。它把任意 \(m \times n\) 矩阵 \(A\) 分解为 \(U\Sigma V^*\),其中 \(U, V\) 是酉矩阵、\(\Sigma\) 是 \(m \times n\) 对角矩阵,且对角元素单调不增。
做法:注意到 \(A^*A = V \Sigma^2 V^*\),而 \(A^*A\) 是半正定的,考虑用标准正交基底将其对角化,即令 \(A^*A = Q^*DQ\),则 \(V = Q, \Sigma = \sqrt D\);可以类似通过 \(AA^*\) 求 \(U\),也可以根据 \(U \Sigma = AV\),考虑第 \(j\) 列得到 \(\sigma_j u_j = A v_j\)。
半正定方阵的奇异值与特征值相同。
正定方阵的奇异值分解中 \(U = V\)。
极分解
对于任意方阵 \(A\),存在唯一的分解 \(A = WP\),其中 \(W\) 是酉矩阵、\(P\) 是半正定矩阵。
构造:\(A = U \Sigma V^* = (UV^*) (V \Sigma V^*)\)。
唯一性:\(A = WP = ZQ \Rightarrow Z^*W = QP^{-1}\)。于是 \(QP^{-1}\) 是酉矩阵,\(P = Q\)。
双线性型与二次型
对于 \(H : V \times V \to F\),若 \(H(x, y)\) 在 \(x, y\) 上都线性,则称 \(H\) 是双线性型。
对于有序基底 \(\beta\),\(H\) 的矩阵表示为 \(\psi_{\beta}(H)\) 满足 \(\psi_{\beta}(H)_{ij} = H(v_i, v_j)\)。对于 \(\forall x, y\),有 \(H(x, y) = [x]_{\beta}^t \psi_{\beta}(H) [y]_{\beta}\)。
所以对于有序基底 \(\beta\) 和 \(\gamma\),令 \(Q = [I]_{\gamma}^{\beta}\),则 \(\psi_{\gamma}(H) = Q^t \psi_{\beta}(H) Q\)。
对于矩阵 \(A, B\),若存在矩阵 \(Q\),使得 \(B = Q^tAQ\),则称 \(A, B\) 相合。
相合是用不同的有序基底刻画同一个双线性型。
若 \(H\) 满足对于 \(\forall x, y \in V\) 有 \(H(x, y) = H(y, x)\),则称 \(H\) 是对称的。
显然,\(H\) 对称当且仅当 \(\psi_{\beta}(H)\) 对称。
若 \(H\) 满足存在一个有序基底 \(\beta\),使得 \(\psi_{\beta}(H)\) 是对角矩阵,则称 \(H\) 是可对角化的。
定理:在特征不为 \(2\) 的域中,任意对称的 \(H\) 都可对角化。
证明:可以使用类似于高斯消元的方法对角化。但是不能进行交换两行的操作,主元为 \(0\) 时需要从后面加过来。
定理:在特征不为 \(2\) 的域中,任意对称的 \(H\) 都可以正交对角化
证明:先对角化再正交对角化即可。
对于函数 \(K : V \to F\),若存在双线性型 \(H\) 满足 \(K(x) = H(x, x)\),则称 \(K\) 为二次型。
在特征不为 \(2\) 的域中,\(H(x, y) = \frac 1 2(K(x + y) - K(x) - K(y))\)。
定理:存在标准正交基 \(\beta = \{v_1, v_2, \cdots, v_n\}\),使得对于任意 \(x = \sum_i a_i v_i\),有 \(K(x) = \sum_i \lambda_i a_i^2\)。
证明:将 \(H\) 正交对角化即可。
一个用处是说明解集形如椭球。
Chapter 7 - Canonical Forms
若基底 \(\beta\) 使得
其中 \(A_i\) 形如
则 \([T]_{\beta}\) 被称为 \(T\) 的 Jordan 标准形,\(\beta\) 被称为 Jordan 标准基,\(A_i\) 被称为 Jordan 块。
对于任意 \(\lambda\),若 \(x \ne 0\) 满足存在正整数 \(p\) 使得 \((T - \lambda I)^p(x)\),则称 \(x\) 为 \(T\) 关于 \(\lambda\) 的广义特征向量。
记 \(K_{\lambda}\) 表示 \(T\) 关于 \(\lambda\) 的所有广义特征向量的集合。显然 \(K_{\lambda}\) 也是线性空间,称为广义特征空间。
因为 \((T - \lambda I)^p\) 是关于 \(T\) 的多项式,所以其和 \(T\) 是可交换的。因此 \((T - \lambda I)^p T(x) = T((T - \lambda I) ^ p(x))\),所以 \(K_{\lambda}\) 是 \(T\) - 不变的。
定理:对于 \(\mu \ne \lambda\),\(T - \mu I\) 在 \(K_{\lambda}\) 上的限制为单射。
证明:令 \(x \ne 0 \in K_{\lambda}\) 使得 \((T - \mu I)(x) = 0\)。令 \(p\) 为最小的正整数使得 \((T - \lambda I)^p(x) = 0\)。令 \(y = (T - \lambda I) ^ {p - 1} (x)\),则 \(y \ne 0 \in E_{\lambda}\)。同时因为 \((T - \mu I)(y) = (T - \mu I)(T - \lambda I) ^ {p - 1} (x) = (T - \lambda I) ^ {p - 1} (T - \mu I)(x) = 0\),所以 \(y \in E_{\mu}\)。故 \(y \in E_{\lambda} \cap E_{\mu} = \{0\}\),矛盾。所以为单射。
定理:对于 \(\mu \ne \lambda\),\(E_{\mu} \cap E_{\lambda} = \{0\}\)。
证明:因为 \(T - \mu I\) 在 \(K_{\lambda}\) 上的限制为单射,所以对于 \(\forall x \ne 0\) 和正整数 \(p\),有 \((T - \mu I)^p \ne 0\),即证。
定理:设 \(T\) 的特征值 \(\lambda\) 的代数重数为 \(m\),则
- \(\dim(K_{\lambda}) \le m\);
- \(K_{\lambda} = N((T - \lambda I)^m)\)。
证明:
-
显然 \(T\) 在 \(K_{\lambda}\) 上的限制的所有特征值都是 \(\lambda\),而 \(K_{\lambda}\) 是 \(V\) 的子空间,显然 \(\dim(K_{\lambda}) \le m\)。
-
令 \(d = \dim(K_{\lambda})\),则 \(T\) 在 \(K_{\lambda}\) 上的限制的特征多项式为 \(f(t) = (-1) ^ d (t - \lambda) ^ d\)。将 \(T\) 代入多项式,我们得到 \(f(T) = 0\),即 \((T - \lambda I) ^ d = T_0\)。而 \(d \le m\),显然 \(K_{\lambda} = N((T - \lambda I)^m)\)。
定理:\(V = \sum_{i = 1} ^ k K_{\lambda_i}\)。
证明:对 \(k\) 归纳。当 \(k = 1\) 时,\(f(t) = (-1)^m (t - \lambda_1)^m\),故 \((T - \lambda I)^m = T_0\),所以 \(K_{\lambda_1} = V\)。
考虑 \(k > 1\) 的情况,怎么这么长,不证了。
于是我们可以得到:\(V = \bigoplus_{i = 1} ^ k K_{\lambda_i}\),并且每个 \(\dim(K_{\lambda_i})\) 都等于其代数重数。于是 \(V\) 必然可以分解为 Jordan 标准形。
好像 xy 上课讲了很高级的做法,有没有老哥教教啊????
Jordan 标准基的计算:
-
对于每个 \(K_{\lambda}\):求出 \(E_{\lambda}\) 的基底,然后尝试解方程扩展到层数高的基底。
-
先根据 Jordan 标准基的结构求出 \(J\),然后通过 \(QJ = AQ\) 解出 \(Q\)。
The Minimal Polynomial
若多项式 \(p\) 满足 \(p(T) = T_0\),则称其为零化多项式。
最小多项式是所有零化多项式中度数最小且首项为 \(1\) 的多项式。不难发现它是唯一的。
求最小多项式:
- 方法一:求出特征多项式,逐个检查每个因式是否能去掉。
- 方法二:求出 Jordan 标准形,对每个特征值选最大的 Jordan 块作为次数。
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)
\(\quad\)