《线性代数》学习笔记

\( \newcommand{\a}{\alpha} \newcommand{\b}{\beta} \newcommand{\la}{\lambda} \newcommand{\ga}{\gamma} \newcommand{\si}{\sigma} \newcommand{\al}{\mathcal} \newcommand{\sp}[1]{\operatorname{Span}(#1)} \newcommand{\di}[1]{\operatorname{dim}(#1)} \newcommand{\nul}[1]{\operatorname{nullity}(#1)} \newcommand{\rk}[1]{\operatorname{rank}(#1)} \newcommand{\de}[1]{\operatorname{det}(#1)} \newcommand{\an}[1]{\left \langle #1 \right\rangle} \newcommand{\bpm}{\begin{pmatrix}} \newcommand{\epm}{\end{pmatrix}} \newcommand{\fr}{\frac} \newcommand{\ov}{\overline} \newcommand{\bal}{\begin{aligned}} \newcommand{\eal}{\end{aligned}} \)

Chapter 1: Vector Spaces

1.1 Introduction

向量相加：\((a_1, b_1) + (a_2, b_2) = (a_1 + a_2, b_1 + b_2)\)。

标量乘法：\(c(a, b) = (ca, cb)\)。向量 \(x, y\) 平行当且仅当 \(x = ty\)。

可以用 \(x = u + t(v - u)\) 刻画一条直线，用 \(x = u + s(v - u) + t(w - u)\) 刻画一个平面。

1.2 Vector Spaces

向量空间

域 \(F\) 上的 向量空间 (vector space) \(V\) 是一个定义了加法和标量乘法的集合，满足以下八条性质：

\(\forall x, y\in V,\ x + y = y + x\)（加法交换）。
\(\forall x, y, z\in V,\ (x + y) + z = x + (y + z)\)（加法结合）。
存在 \(0\in V\) 满足 \(\forall x\in V,\ x + 0 = x\)（单位元，零向量）。
\(\forall x \in V,\ \exists y\in V,\ x + y = 0\)（加法逆元）。
\(\forall x\in V,\ 1x = x\)。
\(\forall a, b\in F,\ \forall x\in V,\ (ab)x = a(bx)\)。
\(\forall a\in F,\ \forall x, y\in V,\ a(x + y) = ax + ay\)。
\(\forall a, b\in F,\ \forall x\in V,\ (a + b)x = ax + bx\)。

\(F\) 的元素称为 标量 (scalar)，\(V\) 的元素称为 向量 (vector)。

向量空间也称 线性空间 (linear space)。

常见线性空间

\(n\) 元组空间 \(F ^ n\)，元素一般写成列向量的形式。

\(m\times n\) 矩阵空间 \(M_{m\times n}(F)\)。

多项式空间 \(P(F)\)。

定理 1.1（消去律）

设 \(x, y, z\in V\)。若 \(x + z = y + z\)，则 \(x = y\)。

推论 1

零向量唯一。

推论 2

加法逆元唯一。

定理 1.2

(a) \(\forall x\in V,\ 0x = 0\)。

(b) \(\forall a\in F,\ \forall x\in V,\ (-a)x = -(ax) = a(-x)\)。

(c) \(\forall a\in F,\ a0 = 0\)。

显然的运算规律的正确性。

1.3 Subspaces

子空间

线性空间 \(V\) 的子集 \(W\) 称为 子空间 (subspace)，若 \(W\) 在 \(V\) 的加法和标量乘法下是向量空间。

\(\{0\}\) 和 \(V\) 是 \(V\) 的子空间，前者称为 零子空间 (zero subspace)。

定理 1.3

\(V\) 的子集 \(W\) 是子空间，当且仅当以下三个条件同时成立：

(a) \(0\in W\)。

(b) \(\forall x, y\in W,\ x + y\in W\)（\(W\) 对加法封闭）。

(c) \(\forall c\in F,\ \forall x\in W,\ cx\in W\)（\(W\) 对标量乘法封闭）。

用于证明子空间。

定理 1.4

\(V\) 的任意子空间的交是子空间。

两个子空间的并是子空间当且仅当它们具有包含关系。从两个子空间构造包含它们空间的方法是 \(\{x + y\mid x\in W_1,\ y\in W_2\}\)。

1.4 Linear Combinations and Systems of Linear Equations

线性组合

设 \(S\) 是线性空间 \(V\) 的非空子集。\(v\in V\) 称为 \(S\) 中向量的 线性组合 (linear combination)，若存在有限个 \(u_1, \cdots, u_n\in S\) 和 \(a_1, \cdots, a_n\in F\)，使得 \(v = a_1u_1 + \cdots + a_nu_n\)。\(a\) 称为线性组合的 系数 (coefficient)。

张成

\(S\) 的所有线性组合形成的集合称为 \(S\) 的 张成 (span)，记作 \(\sp S\)。

定理 1.5

\(\sp S\) 是 \(V\) 的子空间。\(V\) 的包含 \(S\) 的子空间包含 \(\sp S\)。

生成

若 \(\sp S = V\)，则称 \(S\) 生成 (generate) \(V\)。

1.5 Linear Dependence and Linear Independence

寻找最小的生成 \(V\) 的集合。

线性相关

\(V\) 的子集 \(S\) 称为 线性相关 (linearly dependent)，若存在有限个 \(u_1, \cdots, u_n\in S\) 和不全为零的 \(a_1, \cdots, a_n\in F\)，满足 \(a_1u_1 + \cdots + a_nu_n = 0\)。

线性无关

若 \(S\) 不线性相关，则称为 线性无关 (linearly independent)。

空集线性无关。
在线性无关的集合上，\(0\) 只有平凡表示。

定理 1.6

设 \(S_1\subseteq S_2\subseteq V\)，若 \(S_1\) 线性相关，则 \(S_2\) 线性相关。

推论

若 \(S_2\) 线性无关，则 \(S_1\) 线性无关。

*定理 1.7

对 \(v\notin S\)，\(S\cup \{v\}\) 线性相关当且仅当 \(v\in \sp S\)。

若没有 \(S\) 的真子集生成 \(\sp S\)，则 \(S\) 线性无关。

1.6 Bases and Dimension

基

\(\b\subseteq V\) 称为 \(V\) 的一组 基 (basis)，若 \(\b\) 线性无关且 \(\sp \b = V\)。

基的大小不一定有限，如 \(P(F)\)。

定理 1.8

\(\b\) 是 \(V\) 的一组基当且仅当 \(u\in V\) 被唯一的 \(a_1u_1 + \cdots + a_nu_n\) 表示。

根据 \(0\) 只有平凡表示证明。

每个向量可以写为唯一的 \(n\) 元组（若基中元素有序）。

定理 1.9

若 \(V\) 被有限集 \(S\) 生成，则某个 \(S\) 的子集是 \(V\) 的基（不一定唯一），\(V\) 有有限基。

有限生成集可以约减为基。

*定理 1.10 (Replacement Theorem)

设 \(V\) 被大小为 \(n\) 的 \(G\) 生成，\(L\) 是 \(V\) 的大小为 \(m\) 的线性无关子集。则 \(m\leq n\) 且存在大小为 \(n - m\) 的 \(H\subseteq G\) 使得 \(L\cup H\) 生成 \(V\)。

对 \(m\) 从 \(0\) 归纳证明。

推论 1

设 \(V\) 有有限基，则 \(V\) 的所有基大小相等。

维度

\(V\) 称为 有限维 (finite-dimensional)，若有有限基，基的大小称为 维度 (dimension)，记作 \(\di V\)。否则称为 无限维 (infinite-dimensional)。

推论 2

(a) 生成集的大小不小于 \(\di V\)，大小为 \(\di V\) 的生成集是基。

(b) 大小为 \(\di V\) 的线性无关集是基。

(c) \(V\) 的线性无关集可以扩展为基。

定理 1.11

设 \(W\) 是有限维线性空间 \(V\) 的子空间，则 \(W\) 有限维且 \(\di W \leq \di V\)。若 \(\di W = \di V\)，则 \(V = W\)。

推论

\(W\) 的基可以扩展为 \(V\) 的基。

Chapter 2: Linear Transformations and Matrices

假设所有线性空间在相同的域 \(F\) 上。

2.1 Linear Transformations, Null Spaces, and Ranges

线性变换

函数 \(T : V\to W\) 称为 线性变换 (linear transformation)，若对任意 \(x, y\in V\) 和 \(c\in F\)，都有 \(T(x + y) = T(x) + T(y)\) 且 \(T(cx) = cT(x)\)。

线性变换具有以下性质：

\(T(0) = 0\)。
\(T\) 是线性变换当且仅当 \(T(cx + y) = cT(x) + T(y)\)。常用于证明线性变换。
\(T(x - y) = T(x) - T(y)\)。
\(T\) 是线性变换当且仅当 \(T\left(\sum a_ix_i\right) = \sum a_iT(x_i)\)。

\(T(x) = x\) 的线性变换记作 \(I_V\)。

零空间与像空间

线性变换 \(T\) 的 零空间 (null space) 或 核 (kernel) 为 \(N(T) = \{x\in V: T(x) = 0\}\)。像空间 (range) 为 \(R(T) = \{T(x) : x\in V\}\)。

定理 2.1

零空间和像空间是 \(V\) 和 \(W\) 的子空间。

定理 2.2

设 \(v_1, \cdots, v_n\) 是 \(V\) 的基，则

\[R(T) = \sp {\{T(v_1), \cdots, T(v_n)\}} \]

由 \(V\) 的基计算 \(R(T)\) 的基。

零化度和秩

若 \(N(T)\) 和 \(R(T)\) 是有限维，则定义 零化度 (nullity) \(\nul {T} = \di {N(T)}\) 和 秩 (rank) \(\rk T = \di {R(T)}\)。

*定理 2.3 (Dimension Theorem)

\[\nul T + \rk T = \di V \]
证明

设 \(v_1, \cdots, v_k\) 是 \(N(T)\) 的基，\(v_1, \cdots, v_n\) 是 \(V\) 的基，证明 \(T(v_{k + 1}), \cdots, T(v_n)\) 是 \(R(T)\) 的基。

核越大，秩越小。

定理 2.4

\(T\) 是单射当且仅当 \(N(T) = \{0\}\)。

定理 2.5

若 \(\di V = \di W\)，则以下等价：

(a) \(T\) 是单射。

(b) \(T\) 是满射。

(c) \(\rk T = \di V\)。

若 \(T\) 是单射，则 \(S\) 线性无关当且仅当 \(T(S)\) 线性无关。

*定理 2.6

设 \(v_1, \cdots, v_n\) 是 \(V\) 的基，对任意 \(w_1, \cdots, w_n\in W\)，存在唯一的线性变换 \(T : V\to W\) 使得 \(T(v_i) = w_i\)。

推论

若线性变换 \(U(v_i) = T(v_i)\)，则 \(U = T\)。

线性变换被它对基的作用唯一决定。

2.2 The Matrix Representation of a Linear Transformation

线性变换和矩阵一一对应。从一个视角得到的性质可以完美推广到另一个视角。

有序基

生成 \(V\) 的线性无关向量序列称为 有序基 (ordered basis)。

定义有序基为了将线性空间的元素与 \(n\) 元组一一对应。

对 \(F ^ n\)，称 \(\{e_1, \cdots, e_n\}\) 为标准有序基。对 \(P_n(F)\)，称 \(\{1, x, \cdots, x ^ n\}\) 为标准有序基。

坐标向量

定义 \(x\in V\) 关于有序基 \(\b = \{v_1, \cdots, v_n\}\) 的 坐标向量 (coordinate vector) 为

\[[x]_{\b} = \bpm a_1 \\ a_2 \\ \vdots \\ a_n \epm \]

其中 \(x = a_1v_1 + \cdots + a_nv_n\)。由定理 1.8，这种表示唯一。

\(x\to [x]_{\b}\) 是 \(V\to F ^ n\) 的线性变换。

线性变换的矩阵表示

对 \(V\) 的有序基 \(\b = \{v_1, \cdots, v_n\}\)，\(W\) 的有序基 \(\ga = \{w_1, \cdots, w_m\}\) 和线性变换 \(T : V\to W\)，存在 \(a_{ij}\in F\) 使得

\[T(v_j) = \sum_{i = 1} ^ m a_{ij} w_i \]

\(m\times n\) 矩阵 \(A_{ij} = a_{ij}\) 称为 \(T\) 关于 \(\b\) 和 \(\ga\) 的 矩阵表示 (matrix representation)，记为 \(A = [T]_{\b} ^ {\ga}\)。

\(A\) 的第 \(j\) 列即 \([T(v_j)]_{\ga}\)。

映射的加法和标量乘法

对映射 \(T, U : V\to W\)，定义 \(T + U : (T + U)(x) = T(x) + U(x)\) 和 \(aT : (aT)(x) = aT(x)\)。

定理 2.7

设线性变换 \(T, U : V\to W\)，则

(a) \(aT + U\) 是线性变换。

(b) 在映射的加法和标量乘法下，所有 \(V\to W\) 线性变换是在 \(F\) 上的线性空间。

记 \(V\to W\) 的所有线性变换为 \(\al L(V, W)\)。在 2.4 小节看到 \(\al L(V, W)\) 和 \(M_{m\times n}(F)\) 的等价性。

定理 2.8

(a) \([T + U] = [T] + [U]\)。

(b) \([aT] = a[T]\)。

2.3 Composition of Linear Transformations and Matrix Multiplication

记 \(UT = U\circ T\)。

定理 2.9

\(UT\) 是线性变换。

定理 2.10

设 \(T, U_1, U_2\in \al L(V)\)，则

(a) \(T(U_1 + U_2) = TU_1 + TU_2\) 且 \((U_1 + U_2)T = U_1T + U_2T\)。

(b) \(T(U_1U_2) = (TU_1) U_2\)。

(c) \(TI_V = I_VT = T\)。

(d) \(a(U_1U_2) = (aU_1)U_2 = U_1(aU_2)\)。

根据线性变换和矩阵的等价性，反映了矩阵乘法的性质。

矩阵乘法

设 \(A\) 是 \(m\times n\) 矩阵，\(B\) 是 \(n\times p\) 矩阵，定义 矩阵乘法 (matrix multiplication)

\[(AB)_{ij} = \sum_{k = 1} ^ n A_{ik}B_{kj} \]

从线性变换的角度考虑，矩阵的每一列描述了原空间的基被映到新空间的哪个位置。\(AB\) 的第 \(i\) 列相当于 \(A\) 作用在 \(B\) 的第 \(i\) 列，相当于 \(A\) 的每一列以 \(B\) 的第 \(i\) 列的对应行作为系数的线性组合（定理 2.13）。

定理 2.11

\([UT]_{\a} ^ {\ga} = [U]_{\b} ^ {\ga} [T]_{\a} ^ {\b}\)。

推论

\([UT]_{\b} = [U]_\b[T]_\b\)。

单位矩阵

定义 \(n\) 阶 单位矩阵 (identity) \((I_n)_{ij} = [i = j]\)。

定理 2.12

设 \(A\) 是 \(m\times n\) 矩阵，\(B, C\) 是 \(n\times p\) 矩阵，\(D, E\) 是 \(q\times m\) 矩阵，则

(a) \(A(B + C) = AB + AC\)，且 \((D + E)A = DA + EA\)。

(b) \(a(AB) = (aA)B = A(aB)\)。

(c) \(I_mA = A = AI_n\)。

(d) 若 \(\di V = n\)，则 \([I_V]_\b = I_n\)。

推论

\[A\left(\sum_{i = 1} ^ k a_i B_i\right) = \sum_{i = 1} ^ k a_iAB_i \]
\[\left(\sum_{i = 1} ^ k a_iC_i\right) A = \sum_{i = 1} ^ k a_iC_iA \]

定理 2.10 的矩阵版本。

定理 2.13

设 \(u_j\) 和 \(v_j\) 是 \(AB\) 和 \(B\) 的列向量，则

(a) \(u_j = Av_j\)。

(b) \(v_j = Be_j\)。

定理 2.14

\[[T(u)]_\ga = [T]_\b ^ \ga[u]_\b \]

左乘变换

设 \(A\) 是 \(m\times n\) 矩阵。定义 左乘变换 (left-multiplication transformation) \(L_A : F ^ n\to F ^ m\) 为 \(L_A(x) = Ax\)。

定理 2.15

设 \(A, B\) 是 \(m\times n\) 矩阵，则 \(L_A\) 是线性变换。设 \(\b\) 和 \(\ga\) 是 \(F ^ n\) 和 \(F ^ m\) 的标准基，则

(a) \([L_A]_\b ^ \ga = A\)。

(b) \(L_A = L_B\) 当且仅当 \(A = B\)。

(c) \(L_{A + B} = L_A + L_B\) 且 \(L_{aA} = aL_A\)。

(d) 若 \(T : F ^ n \to F ^ m\) 是线性变换，则存在唯一的 \(m\times n\) 矩阵 \(C\) 使得 \(T = L_C\)。\(C = [T]_\b ^ \ga\)。

(e) 设 \(E\) 是 \(n\times p\) 矩阵，则 \(L_{AE} = L_AL_E\)。

(f) 若 \(m = n\)，则 \(L_{I_n} = I_{F ^ n}\)。

在矩阵和线性变换之间建立双射。

定理 2.16

设 \(A(BC)\) 有定义，则 \((AB)C\) 有定义且 \((AB)C = A(BC)\)。

2.4 Invertibility and Isomorphism

维度相同的线性空间同构（在相同的域 \(F\) 上）。

逆

设 \(T : V\to W\) 是线性变换。\(U : W\to V\) 称为 \(T\) 的 逆 (inverse)，若 \(TU = I_W\) 且 \(UT = I_V\)。此时称 \(T\) 可逆 (invertible)，逆唯一，记为 \(T ^ {-1}\)。

对可逆函数 \(T, U\)，有以下事实：

\((TU) ^ {-1} = U ^ {-1}T ^ {-1}\)。
\((T ^ {-1}) ^ {-1} = T\)。特别地，\(T ^ {-1}\) 可逆。

一个函数可逆当且仅当它同时是单射和满射，可知在有限维空间上的线性变换可逆有必要条件 \(\di V = \di W\)。

设 \(T : V\to W\) 是线性变换，\(\di V = \di W\)，则 \(T\) 可逆当且仅当 \(\rk T = \di V\)。

定理 2.17

设线性变换 \(T : V\to W\) 可逆，则 \(T ^ {-1} : W\to V\) 是线性变换。

线性变换的逆是线性变换。

可逆矩阵

设 \(A\) 是 \(n\times n\) 矩阵。\(A\) 可逆，若存在 \(n\times n\) 矩阵 \(B\) 使得 \(AB = BA = I\)。此时这样的 \(B\) 唯一，记为 \(A ^ {-1}\)。

引理

设 \(T : V\to W\) 是可逆线性变换，则 \(V\) 有限维当且仅当 \(W\) 有限维。此时 \(\di V = \di W\)。

定理 2.18

\(T\) 可逆当且仅当 \([T]_\b ^ \ga\) 可逆，此时 \([T ^ {-1}]_\ga ^ \b = ([T]_\b ^ \ga) ^ {-1}\)。

线性变换和矩阵之间的桥梁。

推论 1

\(T\) 可逆当且仅当 \([T]_\b\) 可逆。

推论 2

\(A\) 可逆当且仅当 \(L_A\) 可逆，此时 \((L_A) ^ {-1} = L_{A ^ {-1}}\)。

同构

称线性空间 \(V\) 和 \(W\) 同构 (isomorphic)，若存在可逆线性映射 \(T : V\to W\)。\(T\) 称为 \(V\) 到 \(W\) 的 同构 (isomorphism)。

同构是等价关系。

定理 2.19

对有限维线性空间 \(V, W\)，\(V\) 和 \(W\) 同构当且仅当 \(\di V = \di W\)。

推论

\(V\) 和 \(F ^ n\) 同构当且仅当 \(\di V = n\)。

不要忘记我们正在假设线性空间在 \(F\) 上。

定理 2.20

\(\Phi : \al L(V, W)\to M_{m\times n}(F)\) 是同构，其中 \(\Phi(T) = [T]_\a ^ \b\)。

推论

\(\di {\al L(V, W)} = nm\)。

基的标准表示

线性空间 \(V\) 关于基 \(\b\) 的标准表示是 \(\phi_\b : V\to F ^ n\)，其中 \(\phi_\b(x) = [x]_\b\)。

定理 2.21

对任何有限维线性空间 \(V\)，\(\phi_\b\) 是同构。

最终证明了抽象线性空间上的线性变换和 \(F ^ n\to F ^ m\) 上的线性变换的变换是等价的。

2.5 The Change of Coordinate Matrix

基变换是帮助我们切换视角的工具。

定理 2.22

设 \(\b\) 和 \(\b'\) 是有限维线性空间 \(V\) 的基，\(Q = [I_V]_{\beta'} ^ {\beta}\)，则

(a) \(Q\) 可逆。

(b) \([v]_{\beta} = Q[v]_{\beta'}\)。

基变换矩阵

\(Q\) 称为 基变换矩阵 (change of coordinate matrix)。\(Q\) 将 \(\b'\) 坐标变换为 \(\b\) 坐标。

因为

\[x'_j = \sum_{i = 1} ^ n Q_{ij}x_i \]

所以 \(Q\) 的第 \(j\) 列是 \([x'_j]_{\beta}\)。

接下来只考虑 \(V\) 到自身的线性映射，称为 线性算子 (linear operator)。

定理 2.23

\[[T]_{\beta'} = Q ^ {-1}[T]_{\beta} Q \]
推论

\[[L_A]_{\gamma} = Q ^ {-1} A Q \]
其中 \(Q\) 的第 \(j\) 列是 \(\gamma\) 的第 \(j\) 个向量。

\(\b\) 坐标系下的线性变换转化为 \(\b'\) 下的线性变换。

相似

称 \(B\) 相似于 (similar) \(A\)，若存在 \(B = Q ^ {-1} A Q\)。

2.6 Dual Spaces

对偶空间

称 \(\al L(V, F)\) 为 \(V\) 的 对偶空间 (dual space)，记为 \(V ^ *\)，\(f\in V ^ *\) 称为 线性泛函 (linear functional)。

对 \(f_i(x) = ([x]_{\beta})_i\)，称 \(f_i\) 是关于基 \(\b = \{x_1, \cdots, x_n\}\) 的第 \(i\) 维坐标函数。注意到 \(f_i(x_j) = \delta_{ij}\)。

定理 2.24

固定 \(\b\)，\(\b ^ * = \{f_1, \cdots, f_n\}\) 是 \(V ^ *\) 的基。对任意 \(f\in V ^ *\)，

\[f = \sum_{i = 1} ^ n f(x_i)f_i \]

\(f\) 由 \(f(x_i)\) 唯一决定。这说明 \(V ^ *\) 和 \(F ^ n\) 同构。

对偶基

称 \(\b ^ *\) 是 \(\b\) 的 对偶基 (dual basis)。

定理 2.25

设 \(\b, \ga\) 是有限维线性空间 \(V, W\) 的有序基。对任意线性变换 \(T : V\to W\)，\(T ^ {t} : W ^ *\to V ^ *\) 其中 \(T ^ t(g) = gT,\ \forall g\in W ^ *\) 是线性变换，满足 \([T ^ t]_{\ga ^ *} ^ {\b ^ *} = ([T]_{\b} ^ {\ga}) ^ t\)。

拉回：\((gT)(x) = g(T(x)) = g(y) \implies f = gT\)。

转置

定理 2.25 定义的线性变换 \(T ^ t\) 称为 \(T\) 的 转置 (transpose)。

对 \(x\in V\)，定义 \(\hat x : V ^ *\to F\) 其中 \(\hat x (f) = f(x)\)。\(\hat x\) 是 \(V ^ *\) 的线性泛函，所以 \(\hat x\in V ^ {**}\)。\(x\leftrightarrow \hat x\) 的对应关系导出 \(V\) 和 \(V ^ {**}\) 的同构。

引理

若 \(\hat x(f) = 0,\ \forall f\in V ^ *\)，则 \(x = 0\)。

定理 2.26

定义 \(\psi : V\to V ^ {**}\) 其中 \(\psi(x) = \hat x\)，则 \(\psi\) 是同构。

推论

任何 \(V ^ *\) 的有序基都是 \(V\) 的某个有序基的对偶基。

Chapter 3: Matrix

3.2 The Rank of a Matrix and Matrix Inverses

秩

定义矩阵 \(A\) 的 秩 (rank) \(\rk A = \rk {L_A}\)。

定理 3.3

\[\rk T = \rk {[T]_\b ^ \ga} \]

定理 3.4

\(A\) 是 \(m\times n\) 矩阵，\(P, Q\) 是 \(m\times m, n\times n\) 的可逆矩阵，则

(a) \(\rk {AQ} = \rk A\)。

(b) \(\rk{PA} = \rk A\)。

(c) \(\rk {PAQ} = \rk A\)。

推论

初等行变换和初等列变换不改变矩阵的秩。

初等行变换可以用可逆矩阵表示。

定理 3.5

设 \(A = \bpm a_1 & \cdots & a_n \epm\)，则

\[\rk A = \di {\sp{a_1, \cdots, a_n}} = \text {\# of pivot columns} \]

定理 3.6

设 \(m\times n\) 矩阵 \(A\) 的秩为 \(r\)，则 \(r\leq m, n\) 且 \(A\) 可以用初等行变换和列变换变形为

\[D = \bpm I_r & O_1 \\ O_2 & O_3 \epm \]
其中 \(O_1, O_2, O_3\) 都是零矩阵。

推论 1

对秩为 \(r\) 的 \(n\times m\) 矩阵 \(A\)，存在可逆的 \(m\times m\) 矩阵 \(B\) 和 \(n\times n\) 矩阵 \(C\)，使得

\[D = \bpm I_r & O_1 \\ O_2 & O_3 \epm \]
其中 \(D = BAC\)。

推论 2

(a) \(\rk {A ^ T} = \rk A\)。

(b) 矩阵的秩等于线性无关的行的最大数量，即行向量张成子空间的维度。

(c) 矩阵的行和矩阵的列张成相同维度的子空间，等于矩阵的秩。

推论 3

可逆矩阵是初等矩阵的乘积。

定理 3.7

(a) \(\rk {UT} \leq \rk U\)。

(b) \(\rk {UT}\leq \rk T\)。

(c) \(\rk {AB}\leq \rk A\)。

(d) \(\rk {AB}\leq \rk B\)。

线性映射不会扩大空间维度。

矩阵的逆

\[A ^ {-1}(A | I_n) = (I_n | A ^ {-1}) \]

将 \(A\) 变为 \(I_n\) 时，对 \(I_n\) 做同样的初等行变换，得到 \(A ^ {-1}\)。

*LU Decomposition

设 \(A\) 是 \(m\times n\) 矩阵，将 \(A\) 分解为 \(A = LU\) 的形式，其中 \(L\) 是 \(m\times m\) 下三角矩阵，\(U\) 是 \(A\) 的阶梯型，称为 LU 分解。

用处：线性方程组 \(Ax = b\) 即 \(Ly = b\) 且 \(Ux = y\)。因为 \(L\) 是下三角矩阵，且 \(U\) 是阶梯型，所以时间为 \(\mathcal{O}(n ^ 2)\)。

求法：将 \(A\) 化为阶梯型，得到 \(E_p\cdots E_1 A = U\)，则 \(L = (E_p \cdots E_1) ^ {-1}\)。对于交换两行，需要预先进行，否则不能保证 \(L\) 是下三角矩阵。具体地，考虑 \(A\) 的主元列。在高斯消元时，如果该主元列用第 \(i\) 行消去第 \(i + 1\sim m\) 行，那么 \(L\) 的第 \(i\) 列第 \(j(j\geq i)\) 行就是对应的比例系数 \(\frac {A_{ji}} {A_{ii}}\)。

LU 分解求矩阵的逆：\(B\bpm a_1 & \cdots & a_n \epm = \bpm e_1 & \cdots & e_n\epm\)，所以 \(Ba_i = e_i\)，解得 \(a_i\) 对应的矩阵为 \(A = B ^ {-1}\)。

3.3 Systems of Linear Equations —— Theoretical Aspects

齐次线性方程组

线性方程组 \(Ax = b\) 称为 齐次 (homogeneous) 的，若 \(b = 0\)。否则称为 非齐次 (nonhomogeneous) 的。

任何齐次线性方程组至少有 \(x = 0\) 一组解。

相容

线性方程组 \(Ax = b\) 称为 相容 (consistent) 的，若其至少有一组解。否则称为 不相容 (inconsistent) 的。

定理 3.8

设 \(K\) 是 \(Ax = 0\) 的解集，则 \(K = N(L_A)\)，\(\di K = n - \rk A\)。

推论

若 \(m < n\)，则 \(Ax = 0\) 有非零解。

定理 3.9

设 \(K\) 是 \(Ax = b\) 的解集，\(K_H\) 是 \(Ax = 0\) 的解集。\(K = \{s\} + K_H\)，其中 \(s\) 是 \(Ax = b\) 的任意一组解。

定理 3.10

\(Ax = b\) 有唯一解当且仅当 \(A\) 可逆。

设 \(A\) 是 \(n\times n\) 矩阵。\(Ax = b\) 有唯一解，当且仅当 \(A\) 的所有列（行）向量线性无关，当且仅当 \(\rk A = n\)，当且仅当 \(A\) 可逆，当且仅当 \(L_A\) 可逆，当且仅当 \(N(L_A) = \{0\}\)，当且仅当 \(L_A\) 是双射。

增广矩阵

\((A|b)\) 称为 \(Ax = b\) 的 增广矩阵 (augmented matrix)。

定理 3.11

\(Ax = b\) 相容当且仅当 \(\rk A = \rk {A| b}\)。

Chapter 4: Determinants

4.1 Determinants of Order 2

行列式

定义 \(2\times 2\) 矩阵 \(A = \bpm a & b \\ c & d \epm\) 的 行列式 (determinants) 为

\[\de A = |A| = ad - bc \]

定理 4.1

行列式关于每一行是线性函数，即

\[\det\bpm u + kv \\ w\epm = \det \bpm u \\ w \epm + k\det \bpm v\\ w \epm \]
且

\[\det \bpm w \\ u + kv \epm = \det \bpm w \\ u \epm + k \det \bpm w \\ v\epm \]

定理 4.2

\(A\) 可逆当且仅当 \(|A| \neq 0\)。逆矩阵为

\[\frac 1 {|A|}\bpm A_{22} & -A_{12} \\ -A_{21} & A_{11}\epm \]

4.2 Determinants of Order \(n\)

余子式

给定 \(n\times n\) 矩阵 \(A\)。对 \(n\geq 2\)，将第 \(i\) 行第 \(j\) 列删去得到的 \((n - 1)\times (n - 1)\) 矩阵称为 \(A\) 关于第 \(i\) 行第 \(j\) 列的 余子式 (minor)，记为 \(\tilde A_{ij}\)。

行列式

对 \(n = 1\)，定义 \(\de A = A_{11}\)。

对 \(n\geq 2\)，定义

\[\de A = \sum_{j = 1} ^ n (-1) ^ {1 + j}A_{1j} \cdot \de{\tilde A_{1j}} \]

代数余子式

\[c_{ij} = (-1) ^ {i + j} |\tilde A_{ij}| \]

称为 \(A\) 关于第 \(i\) 行第 \(j\) 列的 代数余子式 (cofactor)，则 \(\det A = A_{11}c_{11} +\cdots + A_{1n}c_{1n}\)。该公式称为 \(A\) 沿第一行的代数余子式展开。

证明行列式相关性质一般是通过沿第一行代数余子式展开使用数学归纳法。

定理 4.3

\(n\times n\) 矩阵的行列式是关于每一行的线性函数。对任意 \(1\leq r\leq n\)，

\[\det \bpm a_1 \\ \vdots \\ a_{r - 1} \\ u + kv \\ a_{r + 1} \\ \vdots \\ a_n\epm = \det \bpm a_1 \\ \vdots \\ a_{r - 1} \\ u \\ a_{r + 1} \\ \vdots \\ a_n \epm + k\det \bpm a_1 \\ \vdots \\ a_{r - 1} \\ v \\ a_{r + 1} \\ \vdots \\ a_n\epm \]
推论

若 \(A\) 有一行全是 \(0\)，则 \(|A| = 0\)。

引理

如果 \(B\) 的第 \(i\) 行等于 \(e_k\)，则 \(|B| = (-1) ^ {i + k} |\tilde B_{ik}|\)。

定理 4.4

矩阵的行列式可由沿任意一行的代数余子式展开得到。即对任意 \(1\leq i\leq n\)，

\[|A| = \sum_{j = 1} ^ n (-1) ^ {i + j}A_{ij} |\tilde A_{ij}| \]
推论

若 \(A\) 有两行相等，则 \(|A| = 0\)。

定理 4.5

若 \(B\) 由 \(A\) 交换两行得到，则 \(|A| = -|B|\)。

定理 4.6

若 \(B\) 由 \(A\) 的一行加上另一行的若干倍得到，则 \(|A| = |B|\)。

推论

若 \(A\) 的秩小于 \(n\)，则 \(|A| = 0\)。

4.3 Properties of Determinants

定理 4.7

\(|AB| = |A||B|\)。

证明

先证明 \(A\) 是初等矩阵的情况，再分成 \(A\) 是否可逆分别证明。

推论

\(A\) 可逆当且仅当 \(|A|\neq 0\)，此时 \(|A ^ {-1}| = \frac 1 {|A|}\)。

定理 4.8

\(|A ^ t| = |A|\)。

定理 4.9（Cramer’s Rule）

设 \(Ax = b\) 是 \(n\) 个变量，\(n\) 个方程的线性方程组。若 \(|A| \neq 0\)，则方程有唯一解

\[x_k = \frac {|M_k|}{|A|} \]
其中 \(M_k\) 是 \(A\) 的第 \(k\) 列替换为 \(b\)。

证明

设 \(X_k\) 是将单位矩阵第 \(k\) 列换成 \(x\) 得到的矩阵，则 \(AX_k = M_k\)，\(|X_k| = x_k\)。于是 \(x_k = \frac {|M_k|} {|A|}\)。

[3B1B] 克莱姆法则的几何解释。

Chapter 5：Diagonalization

5.1 Eigenvalues and Eigenvectors

可对角化

\(V\) 上的线性算子 \(T\) 可对角化 (diagonalizable)，若存在有序基 \(\b\) 使得 \([T]_\b\) 是对角矩阵。

特征值和特征向量

非零向量 \(v\in V\) 称为 \(T\) 的 特征向量 (eigenvector)，若存在 \(\la \in F\) 使得 \(T(v) = \la v\)。\(\la\) 称为 \(v\) 对应的 特征值 (eigenvalue)。

定理 5.1

\(T\) 可对角化当且仅当存在特征向量组成的有序基。

定理 5.2

\(\la\) 是特征向量当且仅当 \(|A - \la I_n| = 0\)。

\(Ax = \la x \iff (A - \la I_n)x = 0\) 有非零解。

特征多项式

\(f(t) = |A - t I_n|\) 称为 \(A\) 的 特征多项式 (characteristic polynomial)。

特征多项式的根是特征值。

相似矩阵的特征多项式相同：

\[|Q ^ {-1}AQ - tI_n| = |Q ^ {-1}(A - tI_n)Q| = |Q ^ {-1}||A - tI_n||Q| = |A - tI_n| \]

因此，对线性变换 \(T\)，无论 \(\beta\) 是什么，\([T]_{\beta}\) 的特征多项式都是相同的。由此定义线性变换的特征多项式。

计算特征向量：设 \(A = [T]_{\beta}\)，\((A - \la I)x = 0\)，其中 \(x = [v]_{\beta}\)。则

\[Ax = \la x\implies [T(v)]_{\beta} = [\la v]_{\beta} \implies T(v) = \la v \]

定理 5.3

(a) \(A\) 的特征多项式是度为 \(n\) 且首项系数为 \((-1) ^ n\) 的多项式。

(b) \(A\) 有至多 \(n\) 个特征值。

定理 5.4

设 \(\la\) 是 \(T\) 的特征值，则 \(v\in V\) 是特征值为 \(\la\) 的特征向量当且仅当 \(v\neq 0\) 且 \(v\in N(T - \la I)\)。

5.2 Diagonalizability

*定理 5.5

设 \(\la_1, \cdots, \la_k\) 是 \(T\) 的不同的特征值。设 \(\la_i\) 对应的特征向量为 \(v_i\)，则 \(v_1, \cdots, v_k\) 线性无关。

证明

假设线性相关。不妨设 \(v_k = \sum_{i = 1} ^ {k - 1} a_iv_i\)，则 \(T(v_k) = \la_k\sum_{i = 1} ^ {k - 1} a_iv_i\)。而 \(T(v_k) = \sum_{i = 1} ^ {k - 1} a_iT(v_i)\)，所以 \(\sum_{i = 1} ^ {k - 1} a_i(\la_k - \la_i)v_i = 0\)。若 \(v_1, \cdots, v_{k - 1}\) 线性无关，则 \(a_i = 0\)，于是 \(v_k = 0\)，矛盾，所以 \(v_1, \cdots, v_{k - 1}\) 线性相关。归纳即可。

推论

若 \(T\) 有 \(n\) 个不同特征值，则 \(T\) 可对角化。

分裂

\(f(t)\in P(F)\) 在 \(F\) 上 分裂 (split over)，若存在 \(c, a_1, \cdots, a_n\in F\) 使得 \(f(t) = c(t - a_1)\cdots(t - a_n)\)。

定理 5.6

可对角化线性变换的特征多项式分裂。

证明

对角矩阵的特征多项式分裂，而可对角化矩阵可以通过相似变换变为对角矩阵，又因为相似矩阵的特征多项式相同，所以可对角化矩阵的特征多项式分裂。

代数重数

特征值 \(\la\) 的 代数重数 (algebraic multiplicity) 为最大的 \(k\) 使得 \((t - \la) ^ k\) 是 \(f(t)\) 的因数。

特征子空间

\(E_\la = N(T - \la I_V)\) 称为 \(T\) 关于特征值 \(\la\) 的 特征子空间 (eigenspace)。特征子空间的维度称为 \(\la\) 的 几何重数 (geometric multiplicity)。

定理 5.7

设特征值 \(\la\) 在特征多项式的重数为 \(m\)，则 \(1\leq \di {E_\la} \leq m\)。

证明

设 \(v_1, \cdots, v_p\) 是 \(E_\la\) 的有序基，扩展成 \(V\) 的有序基 \(\b\)。设 \(A = [T]_\b\)，则

\[A = \bpm \la I_p & B \\ O & C \epm \]
\(T\) 的特征多项式 \(f(t) = |(\la - t)I_p||C - tI_{n - p}| = (\la - t) ^ pg(t)\)。于是 \(p\) 不超过 \(m\) 的重数。

引理

设 \(\la_1, \cdots, \la_k\) 是 \(T\) 的不同特征值。设 \(v_i\in E_{\la_i}\)。若 \(v_1 + \cdots + v_k = 0\)，则 \(v_1 = \cdots = v_k = 0\)。

证明

用定理 5.5 即可。

定理 5.8

设 \(\la_1, \cdots, \la_k\) 是 \(T\) 的不同特征值。设 \(S_i\) 是 \(E_{\la_i}\) 的有限线性无关子集，则 \(S = S_1 \cup \cdots \cup S_k\) 是 \(V\) 的线性无关子集。

证明

假设线性相关，引理得到每个 \(S_i\) 内部的线性组合为 \(0\)，进一步得到每个元素的系数为 \(0\)。

定理 5.9

设 \(T\) 是有限维空间的线性算子且特征多项式分裂。设 \(\la_1, \cdots, \la_k\) 是 \(T\) 的所有不同的特征值。

(a) \(T\) 可对角化当且仅当每个 \(\di {E_{\la_i}}\) 等于 \(\la_i\) 在特征多项式的重数。

(b) 若 \(T\) 可对角化且 \(\b_i\) 是 \(E_{\la_i}\) 的有序基，则 \(\b = \b_1 \cup \cdots \cup \b_k\) 是 \(V\) 的特征向量有序基。

证明

(a) 若 \(T\) 可对角化，则存在特征向量有序基 \(\b\)。容易证明 \(|\b \cap E_{\la_i}|\leq \di {E_{\la_i}} \leq m_i\)，其中 \(m_i\) 是 \(\la_i\) 的几何重数。对 \(i\) 求和得 \(n\leq \sum \di {E_{\la_i}} \leq n\)。相反，根据定理 5.8，每个特征子空间的一组有序基可以构成 \(V\) 的特征向量有序基，因为 \(\sum \di{E_{\la_i}} = \sum m_i = n\)。

应用：矩阵快速幂

\(Q ^ {-1}AQ = D\)，则 \((Q ^ {-1}AQ) ^ n = Q ^ {-1} A ^ n Q = D ^ n\)，即 \(A ^ n = Q D ^ n Q ^ {-1}\)。

应用：常系数齐次线性微分方程组

设 \(x' = Ax\)，\(Q ^ {-1}AQ = D\) 是对角矩阵，\(y = Q ^ {-1}x\)，则 \(Qy' = AQy\)，即 \(y' = Dy\)。因为 \(D\) 是对角矩阵，所以 \(y\) 容易求解，\(x = Qy\)。

和与直和

对 \(V\) 的子空间 \(W_1, \cdots, W_k\)，定义它们的 和 (sum)

\[\sum_{i = 1} ^ k W_i = \left\{\sum_{i = 1} ^ k v_i : v_i\in W_i\right\} \]

子空间的和的每个元素的表示方法（子空间的元素的和）不一定唯一。

称 \(V\) 是 \(W_1, \cdots, W_k\) 的 直和 (direct sum)，若

\[V = \sum_{i = 1} ^ k W_i \]

且

\[W_i \cap \sum_{i\neq j} W_j = \{0\} \]

记为 \(V = W_1 \oplus \cdots \oplus W_k\)。

定理 5.10

设 \(W_1, \cdots, W_k\) 是有限维线性空间 \(V\) 的子空间，则以下命题等价：

(a) \(V = W_1 \oplus \cdots \oplus W_k\)。

(b) \(V = W_1 + \cdots + W_k\) 且对任意 \(v_i\in W_i\)，若 \(v_1 + \cdots + v_k = 0\)，则 \(v_i = 0\)。

(c) 每个 \(v\in V\) 可以被唯一表示为 \(v = v_1 + \cdots + v_k\)，其中 \(v_i \in W_i\)。

(d) 若 \(\ga_i\) 是 \(W_i\) 的有序基，则 \(\ga_1\cup \cdots \cup \ga_k\) 是 \(V\) 的有序基。

(e) 存在 \(W_i\) 的有序基 \(\ga_i\)，使得 \(\ga_1 \cup \cdots \cup \ga_k\) 是 \(V\) 的有序基。

证明

(a) -> (b)：若 \(v_1 + \cdots + v_k = 0\)，则 \(v_1 = -v_2 - \cdots - v_k\in W_1 \cap \sum_{j = 2} ^ n W_i = \{0\}\)。

(b) -> (c)：假设有两个表示，作差，由 (b) 得 \(v_i' - v_i = 0\)。

(c) -> (d)：设 \(\ga\) 的线性组合为 \(0\)，由 (c) 可知每个子空间的对应线性组合为 \(0\)，于是每个系数为 \(0\)。

(d) -> (e)：显然。

(e) -> (a)：设 \(v_i\in W_i\cap \sum_{j\neq i} W_j\)。如果 \(v_i\neq 0\)，那么容易得到 \(\ga\) 的非平凡线性组合，矛盾。

定理 5.11

\(T\) 可对角化当且仅当 \(V\) 是每个特征值的特征子空间的直和。

证明

结合定理 5.9 和定理 5.10 易证。

5.4 Invariant Subspaces and the Cayley-Hamilton Theorem

不变子空间

\(V\) 的子空间 \(W\) 称为 \(T\)-不变子空间 (invariant subspace)，若 \(T(W)\subseteq W\)。

循环子空间

\[W = \sp {x, T(x), T ^ 2(x), \cdots} \]

称为 \(x\) 生成的 \(T\)-循环子空间 (cyclic subspace)。\(W\) 是最小的包含 \(x\) 的 \(T\)-不变子空间。

定理 5.21

设 \(W\) 是 \(V\) 的 \(T\)-不变子空间，则 \(T_W\) 的特征多项式是 \(T\) 的特征多项式的因式。

定理 5.22

设 \(W\) 是 \(v\) 生成的 \(T\)-循环子空间，\(k = \di W\)，则

(a) \(\{v, T(v), T ^ 2(v), \cdots, T ^ {k - 1}(v)\}\) 是 \(W\) 的基。

(b) 若 \(a_0v + a_1T(v) + \cdots + a_{k - 1}T ^ {k - 1}(v) + T ^ k(v) = 0\)，则 \(T_W\) 的特征多项式为

\[f(t) = (-1) ^ k(a_0 + a_1t + \cdots + a_{k - 1}t ^ {k - 1} + t ^ k) \]
证明

(b) 设 \(\b = \{v, T(v), \cdots, T ^ {k - 1}(v)\}\)，则

\[[T]_\b = \bpm 0 & 0 & \cdots & 0 & -a_0 \\ 1 & 0 & \cdots & 0 & -a_1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & 1 & -a_{k - 1} \epm \]
其特征多项式为 \((-1) ^ k(a_0 + a_1t + \cdots + a_{k - 1}t ^ {k - 1} + t ^ k)\)。

定理 5.23 (Cayley-Hamilton)

设 \(T\) 是有限维空间 \(V\) 上的线性算子，\(f(t)\) 是 \(T\) 的特征多项式，则对任意 \(v\in V\)，\(f(T)(v) = 0\)。

证明

设 \(W\) 是 \(v\) 生成的 \(T\)-循环子空间，\(\di W = k\)。由定理 5.22(a)，存在 \(a_0, \cdots, a_{k - 1}\) 使得

\[a_0v + a_1T(v) + \cdots + a_{k - 1}T ^ {k - 1}(v) + T ^ k(v) = 0 \]
由定理 5.22(b)，\(T_W\) 的特征多项式为

\[g(t) = (-1) ^ k(a_0 + a_1t + \cdots + a_{k - 1} t ^ {k - 1} + t ^ k) \]
于是 \(g(T)(v) = 0\)。由定理 5.21，\(g(t)\) 是 \(f(t)\) 的因式，所以 \(f(T)(v) = 0\)。

定理 5.24

设 \(V\) 是其若干子空间的直和，则其特征多项式为这些子空间的特征多项式的乘积。

矩阵的直和

定义矩阵 \(B_1\) 和 \(B_2\) 的直和为

\[\bpm B_1 & O \\ O & B_2 \epm \]

Chapter 6：Inner Product Spaces

6.1 Inner Products and Norms

内积

内积 (inner product) 是二元运算 \(\an{\cdot, \cdot}: V ^ 2\to F\)，满足以下所有条件：

\(\an{x + z, y} = \an {x, y} + \an {z, y}\)。
\(\an{cx, y} = c\an{x, y}\)。
\(\overline{\an{x, y}} = \an{y, x}\)。
\(\an{x, x} > 0\)，若 \(x\neq 0\)。

当 \(F = \R\) 时，第三条等价于 \(\an{x, y} = \an{y, x}\)。

标准内积

对 \(x = (a_1, \cdots, a_n), y = (b_1, \cdots, b_n) \in F ^ n\)，定义

\[\an {x, y} = \sum_{i = 1} ^ n a_i\overline{b_i} \]

为 \(F ^ n\) 上的 标准内积 (standard inner product)。当 \(F = \R\) 时，不需要复共轭操作，此时称为 点积 (dot product)，记为 \(x\cdot y\)。

共轭转置

定义 \(m\times n\) 矩阵 \(A\) 的 共轭转置 (conjugate transpose) 为 \(n\times m\) 矩阵 \(A ^ *\)，满足 \((A ^ *)_{ij} = \overline {A_{ji}}\)。

弗罗贝尼乌斯内积

对 \(A, B\in M_{n\times n}(F)\)，定义 \(\an{A, B} = \tr(B ^ *A)\)，称为 弗罗贝尼乌斯内积 (Frobenius inner product)。

内积空间

\(F\) 上的线性空间 \(V\) 在给定的内积下称为 内积空间 (inner product space)。

定理 6.1

(a) \(\an {x, y + z} = \an{x, y} + \an {x, z}\)。

(b) \(\an{x, cy} = \ov c\an{x, y}\)。

(c) \(\an{0, x} = \an{x, 0} = 0\)。

(d) \(\an {x, x} = 0\) 当且仅当 \(x = 0\)。

(e) 若对任意 \(x\in V\)，\(\an{x, y} = \an{x, z}\)，则 \(y = z\)。

模长

定义 \(x\in V\) 的 模长 (norm) 为 \(\|x\| = \sqrt {\an{x, x}}\)。

定理 6.2

(a) \(\|cx\| = \abs{c} \| x\|\)。

(b) \(\|x\| = 0\) 当且仅当 \(x = 0\)。

(c) \(|\an{x, y}|\leq \|x\|\|y\|\) (Cauchy-Schwarz)。

(d) \(\|x + y\|\leq \|x\| + \|y\|\) (triangle)。

证明

(c) \(0\leq \| x - cy\| ^ 2 = \an{x, x} + |c| ^ 2\an{y, y} - \ov c\an{x, y} - c\an{y, x}\)。取 \(c = \fr {\an {x, y}} {\an{y, y}}\)，则

\[0\leq \|x\| ^ 2 - \fr {|\an{x, y}| ^ 2} {\| y \| ^ 2} \]
(d)

\[\bal \|x + y\| ^ 2 & = \|x\| ^ 2 + 2\Re \an{x, y} + \|y\| ^ 2 \\ & \leq \| x \| ^ 2 + 2\abs{\an{x, y}} + \|y\| ^ 2 \\ & \leq \| x \| ^ 2 + 2\|x\| \|y\| + \|y\| ^ 2 \\ & = (\|x\| + \|y\|) ^ 2 \eal \]

正交和标准正交

称 \(x, y\) 正交 (orthogonal)，若 \(\an{x, y} = 0\)。\(V\) 的子集 \(S\) 是正交的，若其中任何两个不同的向量正交。

\(x\) 称为 单位向量 (unit vector)，若 \(\|x\| = 1\)。\(V\) 的子集 \(S\) 是 标准正交 (orthonormal) 的，若其正交且由单位向量构成。

标准化

将每个向量除以其长度的操作称为 标准化 (normalizing)。

6.2 The Gram-Schmidt Orthogonalization Process and Orthogonal Complements

标准正交基

设 \(V\) 是内积空间。\(V\) 的子集 \(\b\) 是 标准正交基 (orthonormal basis)，若 \(\b\) 是一组标准正交的基。

定理 6.3

设 \(S\) 是 \(V\) 的正交子集。若 \(y\in \sp S\)，则

\[y = \sum_{i = 1} ^ k \frac {\an{y, v_i}} {\|v_i\| ^ 2} v_i \]
推论 1

若 \(S\) 标准正交，则

\[y = \sum_{i = 1} ^ k \an {y, v_i} v_i \]
推论 2

若 \(S\) 标准正交，则 \(S\) 线性无关。

定理 6.4

设 \(S = \{w_1, \cdots, w_n\}\) 是 \(V\) 的线性无关子集。定义 \(S' = \{v_1, \cdots, v_n\}\)，其中 \(v_1 = w_1\)，且

\[v_k = w_k - \sum_{j = 1} ^ {k - 1} \frac {\an{w_k, v_j}} {\|v_j\| ^ 2} v_j \]
则 \(S'\) 正交且 \(\sp S = \sp {S'}\)。

证明

归纳证明

\[\an{v_k, v_i} = \an{w_k, v_i} - \sum_{j = 1} ^ {k - 1} \frac {\an{w_k, v_j}} {\| v_j\| ^ 2} \an{v_j, v_i} = \an{w_k, v_i} - \frac {\an{w_k, v_j}} {\|v_j\| ^ 2} \an{v_j, v_j} = 0 \]
于是 \(S'\) 正交。根据 \(v_k\) 的构造方式可知 \(\sp {S'} \subseteq \sp S\)，再根据定理 6.3 的推论 2 可知 \(\sp S = \sp {S'}\)。

定理 6.4 的构造正交子集的过程称为 格拉姆-施密特正交化 (Gram-Schmidt orthogonalization)。

定理 6.5

设 \(V\) 是内积空间。\(V\) 存在标准正交基 \(\b = \{v_1, \cdots, v_n\}\)，且对任意 \(x\in V\)，

\[x = \sum_{i = 1} ^ n \an{x, v_i} v_i \]
推论

设 \(A = [T]_\b\)，则 \(A_{ij} = \an{T(v_j), v_i}\)。

傅里叶系数

对内积空间 \(V\) 的标准正交子集 \(\b\)，定义 \(x\in V\) 关于 \(\b\) 的 傅里叶系数 (Fourier coefficient) 为 \(\an{x, y}\)，其中 \(y\in \b\)。

正交补

对内积空间 \(V\) 的子集 \(S\)，定义 \(S\) 的 正交补 (orthogonal complement) \(S ^ \perp = \{x\in V : \an {x, y} = 0, \forall y\in S\}\)。\(S ^ \perp\) 是 \(V\) 的子空间。

定理 6.6

设 \(W\) 是有限维内积空间 \(V\) 的子集，\(y\in V\)，存在唯一的 \(u\in W\) 和 \(z\in W ^ \perp\) 使得 \(y = u + z\)。设 \(\{v_1, \cdots, v_k\}\) 是 \(W\) 的标准正交基，则

\[u = \sum_{i = 1} ^ k \an{y, v_i} v_i \]
推论

\(u\) 是 \(W\) 的距离 \(y\) 最近的向量，即对任意 \(x\in W\)，\(\|x - y\| \geq \|u - y\|\)。\(u\) 称为 \(y\) 在 \(W\) 上的 正交投影 (orthogonal projection)。

定理 6.7

设 \(S = \{v_1, \cdots, v_k\}\) 是 \(n\) 维内积空间的标准正交子集。

(a) \(S\) 可被扩展为标准正交基 \(\{v_1, \cdots, v_n\}\)。

(b) 设 \(W = \sp S\)，则 \(S_1 = \{v_{k + 1}, \cdots, v_n\}\) 是 \(W ^ \perp\) 的标准正交基。

(c) 设 \(W\) 是 \(V\) 的任何子空间，则 \(\di V = \di W + \di {W ^ \perp}\)。

6.3 The Adjoint of a Linear Operator

定理 6.8

设 \(V\) 是有限维内积空间，设 \(g : V\to F\) 是线性变换，则存在唯一的 \(y\) 使得 \(\forall x\in V, g(x) = \an{x, y}\)。

证明

设 \(\b = \{v_1, \cdots, v_n\}\) 是标准正交基。令

\[y = \sum_{i = 1} ^ n \ov{g(v_i)} v_i \]
则 \(\forall v_i \in \b, \an{v_i, y} = g(v_i)\)。根据 \(g\) 的线性性和内积关于第一个分量的线性性，\(\forall x\in V, \an{x, y} = g(x)\)。

唯一性显然。

定理 6.9

设 \(V\) 是有限维线性空间。存在唯一的线性算子 \(T ^ * : V\to V\) 使得 \(\forall x, y\in V, \an{T(x), y} = \an{x, T ^ *(y)}\)。

证明

设 \(g(x) = \an{T(x), y}\)，容易证明 \(g\) 是线性变换。由定理 6.8，\(g(x) = \an{x, y'}\)。设 \(T ^ *: y\to y'\)，容易证明 \(T ^ *\) 线性且唯一。

伴随变换

称 \(T ^ *\) 为 \(T\) 的 伴随 (adjoint)，则 \(\an{T(x), y} = \an{x, T ^ *(y)}\) 且

\[\an{x, T(y)} = \ov {\an{T(y), x}} = \ov{\an{y, T ^ *(x)}} = \an{T ^ *(x), y} \]

定理 6.10

设 \(\b\) 是有限维内积空间 \(V\) 的 标准正交基，则

\[[T ^ *]_\b = [T]_\b ^ * \]
证明

设 \(A = [T]_\b\)，\(B = [T ^ *]_\b\)，\(\b = \{v_1, \cdots, v_n\}\)，则由定理 6.5，

\[B_{ij} = \an{T ^ *(v_j), v_i} = \ov{\an{v_i, T ^ *(v_j)}} = \ov {\an{T(v_i), v_j}} = \ov {A_{ji}} = (A ^ *)_{ij} \]
推论

设 \(A\) 是 \(n\times n\) 矩阵，则 \(L_{A ^ *} = (L_A) ^ *\)。

定理 6.10 非常重要。

定理 6.11

设 \(T, U\) 是内积空间 \(V\) 上的线性算子，则

(a) \((T + U) ^ * = T ^ * + U ^ *\)。

(b) \((cT) ^ * = \ov cT ^ *\)。

(c) \((TU) ^ * = U ^ *T ^ *\)。

(d) \(T ^ {**} = T\)。

(e) \(I ^ * = I\)。

推论

对矩阵有类似结论。

最小二乘

给定平面上的一些点 \((t_i, y_i)\)，找到一条直线 \(y = ct + d\) 最小化 \(E = \sum_{i = 1} ^ m (y_i - ct_i - d) ^ 2\)。

设

\[A = \bpm t_1 & 1 \\ t_2 & 1 \\ \vdots & \vdots \\ t_m & 1 \epm, \quad x = \bpm c \\ d \epm, \quad y = \bpm y_1 \\ y_2 \\ \vdots \\ y_m \epm \]

则 \(E = \|y - Ax\| ^ 2\)，于是 \(y - Ax \in R(A) ^ \perp\)，即对任意 \(x'\in \R ^ 2\)，

\[\an{y - Ax, Ax'} = 0\iff \an{A ^ *(y - Ax), x'} = 0 \]

于是 \(A ^ *(y - Ax) = 0\)，即 \(A ^ *Ax = A ^ *y\)。

直线可以改成 \(n\) 阶多项式，类似的做法。

引理

\(\forall A\in M_{m\times n}(F), \rk{A ^ *A} = \rk A\)。

证明

若 \(Ax = 0\)，则 \(A ^ *Ax = 0\)。

若 \(A ^ * Ax = 0\)，则

\[0 = \an{A ^ * Ax, x}_n = \an{Ax, A ^ {**}x}_m = \an{Ax, Ax}_m \]
于是 \(Ax = 0\)。

推论

若 \(\rk A = n\)，则 \(A ^ * A\) 可逆。

线性方程组的最小范数解

求 \(Ax = b\) 的 \(\|x\|\) 最小解，则 \(x\in N(L_A) ^ \perp = R(L_{A ^ *})\)（\(Ax = b\) 的解是 \(N(L_A)\) 在特解方向上平移）。解 \(AA ^ *u = b\)，则 \(x = A ^ *u\)。\(u\) 可能不唯一，但 \(x\) 唯一：

\[A(x_1 - x_2) = 0\implies x_1 - x_2\in N(L_A) \cap N(L_A) ^ \perp = \{0\} \]

6.4 Normal and Self-Adjoint Operators

引理

设 \(T\) 是有限维内积空间 \(V\) 上的线性算子。若 \(T\) 有特征向量，则 \(T ^ *\) 有特征向量。

证明

设 \(\la\) 是特征值，\(v\) 是特征向量，则

\[\forall x\in V,0 = \an{(T - \la I)(v), x} = \an{v, (T ^ * - \la I)(x)} \]
所以 \(v\in R(T ^ * - \la I) ^ \perp\)，即 \(N(T ^ * - \la I)\) 非零。

定理 6.14（Schur）

设 \(T\) 是有限维内积空间 \(V\) 上的线性算子且 \(T\) 的特征多项式分裂。存在标准正交基 \(\b\) 使得 \([T]_\b\) 是上三角矩阵。

证明

\(n = 1\) 时显然。

由引理，\(T ^ *\) 存在特征向量 \(z\)。设 \(T ^ *(z) = \la z\) 且 \(W = \sp {z}\)，证明 \(W ^ \perp\) 是 \(T\)-不变子空间。对 \(W ^ \perp\) 使用归纳假设即可。

正规变换

若 \(TT ^ * = T ^ *T\)，则称 \(T\) 为 正规算子 (normal operator)。若 \(AA ^ * = A ^ *A\)，则称 \(A\) 为 正规矩阵 (normal matrix)。

定理 6.15

设 \(T\) 是正规算子。

(a) \(\|T(x)\| = \|T ^ *(x)\|\)。

(b) \(T - cI\) 是正规算子。

(c) 若 \(T(x) = \la x\)，则 \(T ^ *(x) = \ov \la x\)。

(d) 若特征向量 \(x_1, x_2\) 对应不同特征值，则 \(x_1, x_2\) 正交。

证明

(a) 对任意 \(x\in V\)，

\[\|T(x)\| ^ 2 = \an{T(x), T(x)} = \an{T ^ *T(x), x} = \an{TT ^ *(x), x} = \an{T ^ *(x), T ^ *(x)} = \|T ^ *(x)\| ^ 2 \]
(c) 设 \(U = T - \la I\)，则 \(U(x) = 0\)。由 (b)，\(U\) 正规。由 (a)，

\[0 = \|U(x)\| = \|U ^ * (x)\| = \|(T ^ * - \ov \la I)(x)\| \]
(d)

\[\la_1 \an{x_1, x_2} = \an{\la_1 x_1, x_2} = \an{T(x_1), x_2} = \an{x_1, T ^ *(x_2)} = \an{x_1, \ov {\la_2} x_2} = \la_2 \an{x_1, x_2} \]

定理 6.16

对有限维复内积空间 \(V\)，\(T\) 正规当且仅当存在特征向量的标准正交基。

证明

设 \(T\) 正规，由代数学基本定理和 Schur 分解得到标准正交基 \(\b\)，使用数学归纳法，结合定理 6.5 和 6.15 证明。

反方向显然。

自伴随变换

若 \(T = T ^ *\)，则称 \(T\) 为 自伴算子 (self-adjoint operator)。若 \(A = A ^ *\)，则称 \(A\) 为 自伴矩阵 (self-adjoint matrix)，也称 厄米特矩阵 (Hermitian matrix)。

自伴算子是正规算子的特例。

引理

设 \(T\) 是自伴算子。

(a) \(T\) 的特征值是实数。

(b) 若 \(V\) 是实内积空间，则 \(T\) 的特征多项式分裂。

证明

(a) 容易证明 \(\la = \ov \la\)。

(b) 由代数学基本定理和 (a)。

定理 6.17

设 \(T\) 是实内积空间的线性算子，则 \(T\) 是自伴算子当且仅当存在特征向量的标准正交基。

证明

设 \(T\) 是自伴算子。由引理 (b) 和 Schur 定理，存在标准正交基 \(\b\) 使得 \(A = [T]_\b\) 是上三角矩阵。但

\[A ^ * = [T]_\b ^ * = [T ^ *]_\b = [T]_\b = A \]
所以 \(A\) 是对角矩阵，\(\b\) 由特征向量构成。

反方向显然。

6.5 Unitary and Orthogonal Operators and Their Matrices

保持长度的线性变换同时保持内积。

幺正算子

设 \(T\) 是有限维内积空间上的线性算子。若 \(\|T(x)\| = \|x\|\)，则称 \(T\) 为 幺正算子 (unitary operator)（对 \(F = \C\)）或 正交算子 (orthogonal operator)（对 \(F = \R\)）。

引理

设 \(U\) 是有限维内积空间 \(V\)上的自伴随算子。若 \(\forall x\in V, \an{x, U(x)} = 0\)，则 \(U = T_0\)。

证明

由定理 6.16 或 6.17，存在特征向量的标准正交基 \(\b\)。若 \(x\in \b\)，则 \(U(x) = \la x\)，

\[0 = \an{x, U(x)} = \ov \la\an{x, x} \]
于是 \(\forall x\in \b, U(x) = 0\)。

以下定理的 (d) -> (a) 说明幺正算子是正规算子。

定理 6.18

设 \(V\) 是有限维内积空间。以下命题等价：

(a) \(TT ^ * = T ^ *T = I\)。

(b) \(\an{T(x), T(y)} = \an{x, y}\)。

(c) 若 \(\b\) 是标准正交基，则 \(T(\b)\) 是标准正交基。

(d) \(\|T(x)\| = \|x\|\)。

证明

(d) -> (a)：\(\an{x, x} = \an{T(x), T(x)} = \an{x, T ^ *T(x)}\)，于是 \(\an{x, (I - T ^ *T)(x)} = 0\)。由引理，\(I = T ^ *T\)。因为 \(V\) 的维度有限，所以 \(TT ^ * = I\)（练习 2.4.10）。

推论 1

对实内积空间 \(V\)，存在 \(T\) 的特征值绝对值为 \(1\) 的特征向量的标准正交基，当且仅当 \(T\) 自伴随且正交。

推论 2

对复内积空间 \(V\)，存在 \(T\) 的特征值绝对值为 \(1\) 的特征向量的标准正交基，当且仅当 \(T\) 是幺正算子。

定理 6.19

设 \(A\) 是 \(n\times n\) 复矩阵。\(A\) 正规当且仅当 \(A\) 和对角矩阵 \(D\) 酉等价。

定理 6.20

设 \(A\) 是 \(n\times n\) 实矩阵。\(A\) 对称当且仅当 \(A\) 和对角矩阵 \(D\) 正交等价。

6.6 Orthogonal Projections and the Spectral Theorem

正交投影

\(T\) 称为 正交投影 (orthogonal projection)，若 \(R(T) = N(T) ^ \perp\) 且 \(N(T) = R(T) ^ \perp\)。

定理 6.24

\(T\) 是正交投影当且仅当 \(T\) 有伴随算子 \(T ^ *\) 且 \(T = T ^ * = T ^ 2\)。

证明

设 \(T\) 是正交投影。

\(V = R(T)\oplus N(T)\) 且 \(R(T) ^ \perp = N(T)\)。因为 \(T\) 是投影，所以 \(T ^ 2 = T\)。对任意 \(x, y\in V\)，设正交分解为 \(x = x_1 + x_2\) 和 \(y = y_1 + y_2\)，则

\[\an{x, T(y)} = \an{x_1 + x_2, y_1} = \an{x_1, y_1} = \an{x_1, y_1 + y_2} = \an{T(x), y} \]
于是 \(T = T ^ *\)。

设 \(T = T ^ * = T ^ 2\)。

对任意 \(x \in V\)，设 \(x = T(x) + y\)，则 \(T(y) = T(x) - T ^ 2(x) = 0\)。于是 \(V = R(T) + N(T)\)。设 \(x\in N(T)\cap R(T)\)，\(T(x) = 0\)，且存在 \(T(y) = x\)。于是 \(T ^ 2(y) = T(x) = 0\)，即 \(x = 0\)。于是 \(V = R(T)\oplus N(T)\)。对任意 \(x = x_1 + x_2\)，设 \(T(y) = x_1\)，则 \(T(x) = T ^ 2(y) + T(x_2) = x_1\)。因此 \(T\) 是投影。

定理 6.25 (The Spectral Theorem)

设 \(T\) 有特征值 \(\la_1, \cdots, \la_k\)，\(T\) 是正规算子（\(F = \C\)）或自伴算子（\(F = \R\)），\(W_i\) 是 \(\la_i\) 的特征子空间，\(T_i\) 是到 \(W_i\) 的正交投影。

(a) \(V = \oplus_{i = 1} ^ k W_i\)。

(b) 设 \(W_i' = \oplus_{j\neq i} W_j\)，则 \(W_i ^ \perp = W_i'\)。

(c) \(T_iT_j = \delta_{ij}T_i\)。

(d) \(I = T_1 + \cdots + T_k\)，称为 单位算子分解 (resolution of the identity operator)。

(e) \(T = \la_1T_1 + \cdots + \la_kT_k\)，称为 谱分解 (spectral decomposition)。\(\{\la_1, \cdots, \la_k\}\) 称为 \(T\) 的 谱 (spectrum)。

推论 1

若 \(F = \C\)，则 \(T\) 正规当且仅当 \(T ^ * = g(T)\)。

证明

若 \(T ^ * = g(T)\)，则 \(T\) 和 \(T ^ *\) 交换。

若 \(T\) 正规，则 \(T ^ * = \ov {\la_1} T_1 + \cdots + \ov {\la_k} T_k\)。由拉格朗日插值，存在 \(g(\la_i) = \ov {\la_i}\)，则 \(g(T) = T ^ *\)。

推论 2

若 \(F = \C\)，则 \(T\) 幺正当且仅当 \(T\) 正规且 \(|\la| = 1\)。

推论 3

若 \(F = \C\) 且 \(T\) 正规，则 \(T\) 自伴当且仅当 \(T\) 的所有特征值都是实数。

推论 4

\(T_j\) 是 \(T\) 的多项式。

6.7 The Singular Value Decomposition and the Pseudoinverse

考虑 \(F = \R\)。

我们希望将 \(A_{m\times n}\) 分解为 \(U_{m\times m}\Sigma_{m\times n}V ^ t_{n\times n}\)，其中 \(\Sigma = \bpm D & 0 \\ 0 & 0 \epm\)，\(D\) 是对角矩阵，\(U, V\) 是正交矩阵。\(D\) 的对角线上的元素 \(\si_1 \geq \si_2 \geq \cdots \geq \si_k\) 称为 奇异值 (singular value)。

设 \(\{v_1, \cdots, v_n\}\) 是 \(A ^ tA\)（对称）的特征向量的标准正交基，则 \(\|Av_i\| ^ 2 = v_i ^ tA ^ tAv_i = \la_i\)。

\[A\bpm v_1 & \cdots & v_n\epm = \bpm Av_1 & \cdots & Av_r & 0 & \cdots \epm_{m\times n} = \bpm \fr {Av_1} {\si_1} & \cdots & \fr {Av_r} {\si_r} & 0 & \cdots \epm_{m\times m} \Sigma_{m\times n} \]

于是

\[U = \bpm \fr {Av_1} {\si_1} & \cdots & \fr {Av_r} {\si_r} & 0 & \cdots \epm_{m\times m}, \quad V ^ t = \bpm v_1 & \cdots & v_n\epm_{n\times n} ^ {-1} = \bpm v_1 & \cdots & v_n\epm_{n\times n} ^ {t} \]

6.8 Bilinear and Quadratic Forms

研究元素是向量空间。

双线性型

\(H: V\times V\to F\) 称为 双线性型 (bilinear form)，若 \(H\) 关于每个变量线性。所有双线性型的集合记为 \(\al B(V)\)。

双线性型的矩阵表示

设 \(\b = \{v_1, \cdots, v_n\}\) 是 \(V\) 的一组基，则

\[H(x, y) = \sum_{i, j} [x]_{\b, i}H(v_i, v_j)[y]_{\b, j} = [x]_\b ^ t A [y]_\b \]

对应的 \(A\) 称为 \(H\) 关于 \(\b\) 的矩阵表示，记作 \(\psi_\b(H)\)。

定理 6.32

\(\psi_\b : \al B(V)\to M_{n\times n}(F)\) 是同构。

合同

对 \(A, B\in M_{n\times n}(F)\)，若存在可逆矩阵 \(Q\) 使得 \(B = Q ^ tAQ\)，则称 \(B\) 关于 \(A\) 合同 (congruent)。

合同是等价关系。

定理 6.33

设 \(\b\) 和 \(\ga\) 是两组基，\(Q\) 是从 \(\ga\) 到 \(\b\) 的基变换矩阵，则 \(\psi_{\ga}(H) = Q ^ t\psi_\b(H)Q\)。

对称双线性型

若 \(H(x, y) = H(y, x)\)，则称 \(H\) 对称 (symmectric)。

定理 6.34

\(H\) 对称当且仅当 \(\psi_\b(H)\) 对称。

可对角化双线性型

若存在 \(\b\) 使得 \(\psi_\b(H)\) 是对角矩阵，则称 \(H\) 可对角化 (diagonalizable)。

推论

设 \(H\) 是有限维线性空间上的可对角化双线性型，则 \(H\) 对称。

引理

设 \(H\) 是非零对称双线性型，且 \(F\) 的特征不为 \(2\)，则存在 \(x\in V\) 使得 \(H(x, x)\neq 0\)。

证明

存在 \(H(u, v) \neq 0\)。若 \(H(u, u) = 0\) 且 \(H(v, v) = 0\)，则 \(H(u + v, u + v) = 2H(u + v) \neq 0\)。

定理 6.35

设 \(V\) 是特征不为 \(2\) 的域上的线性空间，则 \(V\) 上的对称双线性型可对角化。

证明

数学归纳，设 \(n = \di V\)。

设 \(H\) 是非零对称双线性型，则存在 \(H(x, x)\neq 0\)。设 \(L_x(y) = H(x, y)\)，则 \(\rk {L_x} = 1\)，\(\di {N(L_x)} = n - 1\)。

\(H_{N(L_x)}\) 是非零对称双线性型。根据归纳假设，存在 \(N(L_x)\) 的有序基 \(\b = \{v_1, \cdots, v_{n - 1}\}\) 使得对任意 \(i\neq j\)，\(H(v_i, v_j) = 0\)。令 \(v_n = x\) 即可。

双线性型的可对角化是矩阵和对角矩阵合同，线性算子的可对角化是矩阵和对角矩阵相似。

posted @ 2024-12-25 17:04 qAlex_Weiq 阅读(545) 评论(1) 收藏举报

刷新页面返回顶部

qAlex_Weiq