Linear Algebra 整理
教材是 Linear Algebra (4th edition) Stephen H. Friedberg, Arnold J. Insel, Lawrence E. Spence \(\newcommand{\b}{\beta}\newcommand{\l}{\lambda}\DeclareMathOperator{\span}{span}\newcommand{\lin}[1]{\left\langle #1 \right\rangle} \newcommand{\norm}[1]{ \Vert #1 \Vert}\)
Diagonalization
对于一个 \(V\) 上的线性变换 \(T\),我们希望能够选取一组合适的 ordered basis \(\b\),使得 \([T]_\b\) 足够的简单,也就是说将 \(T\) 做 diagonalization。
这诱导我们关注一类特别的向量 \(v\in V\),满足 \(Tv = \l v\)。我们称这样的 \(v\) 为 eigenvector,这样的 \(\l\) 为 eigenvalue。如何找出他们?移项,得到 \((T-\l I) v = 0\),由此我们知道 \(v \in \ker (T - \l I)\),后者非平凡,所以应当有 \(\det( T - \l I) = 0\)。称这个多项式 \(p(\l) = \det(T-\l I)\) 为 characteristic polynomial。
接下来就轮到了 Cayley-Hamilton 定理:\(P(T) = O\),如果 \(T\) is diagonalizable 那么自然是正确的,但是其余情况我们可以考虑一个初等做法。对每个向量 \(v\),考虑 \(W = \span \{v,Tv,\dots,T^{p-1}v\}\),其中 \(p\) 是最大的整数使得该集合构成一组基,设这组基为 \(\b\),那么下一个向量就有 \(T^p v = \sum_{i=0}^{p-1} c_i T^i v\)。易见 \(W\) 是 \(T\)-invariant 的,那么将 \(T\) 限制在 \(W\) 上就有
易见这个矩阵的特征多项式是 \(t^p - c_{p-1}t^{p-1} - \dots - c_0\),且是 \(T\) 的特征多项式的一个因子,故有 \(p(T)v =0\),对所有的 \(v\) 都成立,因此必有 \(p(T)=O\)。
回到我们对于 diagonalizability 的讨论。特征多项式 \(p(t)\) 无疑是重要的,我们称 \(\l_i\) 的重根数量为 \(m_i\),也即它的 algebraic multiplicity。记 eigenspace \(E_{\l} = \ker (T-\l I)\),那么我们可以通过基的选取证明 \(1\le \dim E_{\l_i}\le m_i\)。
只有当 \(p(t)\) 在我们考虑的 \(F\) 上 splits 的时候,才有 \(\sum_i m_i = \dim V\),所以 \(p(t)\) splits 且 \(\dim E_{\l_i} = m_i, \forall i\) 是一个可对角化的必要条件。那么它是不是充分的呢?我们就需要证明 \(E_{\l_1} + \cdots + E_{\l_p} = V\) 了,由于此时 \(\dim\) 之和相等,我们只需要证明这个空间的和就等于他们的 direct sum。也即 \(v_1 + \cdots + v_p = 0, v_i \in E_{\l_i}\) 没有非零解。这是通过对 \(p\) 归纳不难得到的。由此,我们只需要从每个 eigenspace \(E_{\l_i}\) 中选取一组基 \(\b_i\),此时 \(\b = \b_1 \cup \cdots \cup \b_p\) 就给出了一个 diagonalization。
Inner product space
对于线性空间 \(V\) 在其上装配内积 \(\lin{x,y}\),满足对第一个分量的线性性和 \(\lin{y,x} = \overline{\lin {x,y}}\),以及 \(\lin{x,x} > 0, \forall x \neq 0\),此时我们发现定义 \(\norm x = \sqrt{\lin{x,x}}\),这就是符合我们平时定义的距离。
首先它能导出 Cauchy-Schwarz 不等式:\(|\lin{x,y}|\le \norm x \cdot \norm y\)。固定 \(x\) 看 \(y\),这就是说只有 \(x,y\) 平行的时候能达到等号。因此我们可以考虑 \(\norm{x + cy} \ge 0\),取 \(c = -\frac{\lin{x,y}}{\lin{y,y}}\) 即证。进一步推出三角不等式。
对于线性变换 \(T\),我们称 \(\lin{Tx,y} = \lin{x,T^*y}, \forall x,y\in V\) 的 \(T^*\) 为 \(T\) 的 adjoint。易见,选取 standard ordered orthogonal basis 的情况下,\(T^*\) 就是 \(T\) 的共轭转置。但为了让任意 \(T\) 有 \([T^*]_\b = ([T]_\b)^*\),我们还需要让这组基是 orthonomal 的,也即 \(\lin{v_i,v_j} = \delta_{ij}\)。
因此,我们很自然地想问:如何得到这样的基?在这样的基的限制之下,\(T\) 是否还能有 diagonalization?
对于如何得到这样的基,我们可以将一个已有的 ordered basis 首先变得 orthogonal,然后归一化。这个变得 orthogonal 的过程就叫做 Gram-Schmidt orthogonalization,其实就是类似高斯消元的过程:
在 \(\C\) 上,我们有 \(T\) orthonormal diagonalizable \(\iff T T^* = T^*T\),也即 \(T\) normal。这可以通过 Schur 定理给出的上三角矩阵进一步得到。在 \(\R\) 上,我们有 \(T\) orthonormal diagonalizable \(\iff T = T^*\),也即 self-adjoint (Hermitian)。
正交性同时让我们可以给空间定义唯一的 orthogonal completement \(W^\perp = \{ v \mid \lin{x,w} = 0, \forall w\in W\}\)。在几何直观上,对于任何向量 \(x = w + v, w\in W, v \in W^\perp\) 就给出了 \(x\) 距离 \(W\) 最近的向量 \(w\)。
这进一步帮助我们计算最小二乘法:给定 \(y\) 和矩阵 \(A\),要求最小化 \(\norm{Ax - y}\)。这实际上就是让我们找到 \(\lin{y-Ax,Ax'}=0, \forall x'\),也即解方程 \(A^* y = A^* Ax\)。当 \(A\) 列满秩,必有 \(A^*A\) 满秩,此时有唯一解。
同时,我们也可以计算一个 equation 的 minimal solution:对于方程 \(Ax=b\),我们希望找到 \(\norm x\) 最小的解。那么对于任意 \(Ax'=0\),应有 \(\lin{x,x'}=0\)。由此推得 \(x \in \image A^*\)。设 \(x= A^*u\),我们首先解方程 \(AA^*u=b\),然后取 \(x = A^*u\)。
对于一般的 diagonalization,反映在矩阵上即为 \(A \mapsto Q^{-1}AQ\),而对于 orthogonal diagonalization,则需要 \(QQ^*=I\),称为 unitary matrix,在 \(\R\) 上则退化为 \(QQ^t=I\),称为 orthogonal matrix。其另一个等价条件是 \(\norm{T(x)} = \norm x, \forall x\in V\)。
orthogonal diagonalization 的另一个表述为 spectral theorem,也即对于一个 normal (self-adjoint) 的线性变换 \(T\),可以分解为正交空间 \(W_1,\dots,W_k\) 的直和,满足 \(T = \l_1 T_1 + \cdots + \l_k T_k\),其中 \(T_i\) 是在 \(V\) 在 \(W_i\) 上的 orthogonal projection。进一步地,我们可以通过 Lagrange 插值证明,\(T\) 是 normal 的当且仅当 \(T\) 是 \(T^*\) 的多项式。
由此,我们可以称一个 self-adjoint 的线性映射是 positive (semi)definite 的当且仅当 \(\forall x\neq 0, \lin{Tx,x} > 0 (\ge 0)\)。根据 orthogonal diagonalization,我们有 \(A\) positive (semi)definite \(\iff A = B^*B\)。
我们还试图刻画装备了内积的空间之间的线性映射。设 \(T: V \to W\),我们可以找到 \(V\) 上的 orthogonal basis \(v_1,\dots,v_n\) 和 \(W\) 上的 orthogonal basis \(u_1,\dots,u_m\)。使得对于 \(i\le k\),有 \(T v_i = \sigma_i u_i\),更大的 \(i\) 有 \(T v_i = 0\)。将 \(\sigma_i\) 从大到小排列时,称为这个线性变换的 Singular Value Decomposition,又写作 \(T = U \Sigma V^*\)。考虑 \(A = T^*T\) 是 positive semidefinite 的,对其取 orthogonal basis \(v_1,\dots,v_n\) 必然有 \(A v_i = \l_i v_i\),则可取 \(\sigma_i = \sqrt{\l_i}\),\(u_i = \frac 1{\sigma_i} Tv_i\),然后扩展出剩下的部分即得。
我们考虑 \(V\) 上的双线性函数,选取一组基之后,双线性函数无非就是一个 \(n\times n\) 的方阵。但换基的变换是 \(Q^tAQ\),与相似变换有所不同。当 bilinear form \(H\) 是对称的,那么在 characteristic 不为 \(2\) 的域上,我们总能经过适当的消元将其对角化。如果 \(V\) 上装配了内积,那么由于我们有 orthogonal diagonalization,有对角化 \(Q^{-1}HQ = Q^tHQ\)。
Canonical forms
虽然我们在矩阵的 diagonalization 上已经得到了很多结果,但是我们依然希望在不可对角化的矩阵上取得一定结果。假设 \(p(t)\) 在 \(F\) 上 split,对重数为 \(m\) 的 eigenvalue \(\l\),我们令 \(K_{\l} = \ker (T - \l I)^{m}\),注意到对 \(\mu \neq \l\),\(T-\mu I\) 是在 \(K_\l\) 上的双射,进一步可以归纳得到,\(K_{\l_1} + K_{\l_2} + \cdots + K_{\l_k} = V\),进而给出了 \(V\) 的一个直和分解。接下来,我们就只需研究 \(T\) 在每个 \(K_\l\) 上的效果了。
在 \(K_\l\) 中,对每个向量 \(v\),我们有 \(T\)-invariant subspace \(W = \span \{(T-\l I)^{p-1}v, \dots, (T-\l I)v, v \}\),其中 \((T-\l I)^p v = 0\)。我们称这组基 \(\gamma\) 为一个 cycle。我们发现有
这被称为一个 Jordan block。令 \(W = \image (T-\l I)\),由于 \(W\) 是一个更小的空间,归纳假设 \(W\) 可以由若干个 cycle 组成一组基,由于最后一个向量 \(v\in \image (T-\l I)\),我们可以解出 \((T-\l I)x = v\),得到新的 end vector,再添上额外的 eigenvector,就得到了 \(K_\l\) 的一组基。因此,每个 \(p(t)\) splits 的矩阵都存在这样一个 Jordan canonical form,cycles 的大小集合一定是唯一的,这可以通过简单的算 \(\dim\) 得到。
Jordan canonical form 还直接给出了一个矩阵的 minimal polynomial。对于每个 eigenvalue,只需取其最大的 Jordan block 的大小 \(l\),\(\prod (x- \l_i)^{l_i}\) 即为 minimal polynomial。