你疑似有点太线代化了

\[\newcommand{\b}{\boldsymbol} \newcommand{\s}{\mathsf} \newcommand{\c}{\mathcal} \newcommand{\d}{\mathrm d} \newcommand{\O}{\operatorname O} \newcommand{\A}{\operatorname A} \newcommand{\span}{\operatorname{span}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\nullity}{\operatorname{nullity}} \newcommand{\tr}{\operatorname{tr}} \newcommand{\bmat}[1]{\begin{bmatrix}#1\end{bmatrix}} \newcommand{\ip}[2]{\left<#1,#2\right>} \newcommand{\ovl}{\overline} \]

目录

I. Vector Spaces

I.I. Introduction

向量加法满足 平行四边形法则(Parallelogram Law for Vector Addition)。

向量的长度可以被 标量乘法(scalar multiplication)修改。两非零向量平行,若 \(\b y=t\b x\)

I.II. Vector Spaces

关于域 \(F\) 定义的 线性空间(Linear Space)/向量空间(Vector Space) \(\s V\) 是关于向量加法和标量乘法定义的代数结构,满足:

  • 对于 \(\s V\) 中的两个元素 \(\b x,\b y\),存在唯一元素 \(\b x+\b y\)
  • 对于 \(F\) 中元素 \(t\)\(\s V\) 中元素 \(\b x\),存在唯一元素 \(t\b x\)
  • 满足其它一堆交换律、结合律、分配律之类。

\(F\) 中的元素称作 标量(scalars),而 \(\s V\) 中的元素称作 向量(vectors)。

\(F\) 上的一个 \(n\) 元组(\(n\)-tuple with entries from \(F\))是 \((a_1,a_2,\dots,a_n)\),其中的每个 \(a_i\) 称作 \(n\) 元组的 (entry)或 成分/元素(component)。

\(F\) 上全体 \(n\) 元组构成集合记作 \(\s F^n\),则其是关于 \(F\) 定义的一个线性空间。\(\s F^n\) 中的元素往往被记作列向量

\[\bmat{a_1\\a_2\\\vdots\\a_n}\in\s F^n \]

特别地,一元组也可以被当成 \(F\) 中的单一元素,所以 \(\s F^1\) 常被直接写成 \(F\)

\(m\times n\) 矩阵是 \(m\)\(n\) 列矩阵,其中项被记作如 \(a_{ij}\) 形式。对角项(diagonal entry)称呼 \(i=j\) 的项。零矩阵被记作 \(O\)

I.III. Subspaces

关于 \(F\) 定义的向量空间 \(\s V\) 拥有向量空间 \(\s W\) 作为 子空间(subspace),若 \(\s W\)\(\s V\) 的子集,且 \(\s W\) 关于 \(F\) 是向量空间。

验证子空间只需验证如下条款:

  • 加法封闭。
  • 标量乘法封闭。
  • 存在零元。

矩阵 \(A\)转置(transpose) 记作 \(A^t\)对称矩阵(symmetric matrix)是转置等于自身的矩阵。易验证全体对称矩阵组成的空间是全体方阵空间的子空间。对角矩阵(diagonal matrix)是仅有对角线元素可能非零的矩阵。对角矩阵全体亦是子空间。零子空间(zero subspace)是仅含零元的子空间。

矩阵的 (trace)是全体对角线元素之和,记作 \(\tr(M)\)。所有零迹矩阵构成子空间。

子空间的交仍是子空间。

上三角(upper triangular)矩阵是对角线下方元素均为零的矩阵。上三角矩阵构成子空间。

斜对称矩阵/交错矩阵/反对称矩阵(skew symmetric matrix)是满足 \(A^T+A=0\) 的矩阵。斜对称矩阵全体构成子空间。

I.IV. Linear Combination and Systems of Linear Equations

\(S\) 是线性空间 \(\s V\) 的子集。\(\s V\) 中的元素 \(\b v\) 被称作 \(S\) 中元素的 线性组合(linear combination)如果存在标量 系数(coefficient) \(u_1,\dots,u_n\) 使得 \(\b v=\sum u_i\b s_i\)

全体线性组合称作该集合的 生成集合(span),记作 \(\span(S)\)。所有的生成集合都是子空间。且若子空间 \(\s U\) 包含 \(S\),则其必然包含 \(\span(S)\)

\(S\) 生成(generate/span)子空间 \(\s V\),若 \(\span(S)=\s V\)。也可以说 \(S\) 中向量共同生成 \(\s V\)

I.V. Linear Dependence and Linear Independence

一组集合称为 线性相关(adj.linearly dependent; n.linear dependence)的,若存在非零系数使其组合出 \(0\);通过全零系数组合出零被称作 平凡表示(trivial representation)。反之,非线性相关即为 线性无关(adj.linearly independent; n.linear independence)。

线性无关集合的子集均为线性无关;反之,线性相关集合的超集均为线性相关。

对于线性无关的集合 \(S\) 和向量 \(\b v\)\(S\cup\{\b v\}\) 线性无关当且仅当 \(\b v\notin\span(S)\)

I.VI. Bases and Dimension

线性空间的 (basis)是线性无关且生成之的集合。令基为 \(\beta=\{\b u_1,\dots,\b u_n\}\),则此时线性空间中每个元素 \(\b v\) 均存在唯一系数 \(a_1,\dots,a_n\) 使得

\[\sum a_i\b u_i=\b v \]

可以被有限集合生成的线性空间均可以找到该集合的子集作为一组基。换言之,有限生成集合(finite spanning set)可以被收缩为基。

取代定理(replacement theorem):对含 \(n\) 个元素的集合 \(G\) 生成的线性空间 \(\s V\),若 \(L\)\(\s V\) 中的一个线性无关的 \(m\) 元子集,则 \(m\leq n\) 且可以从 \(G\) 中挑选 \(n-m\) 个向量组成 \(H\),并使用 \(L\cup H\) 生成 \(\s V\)

初始令 \(H=G\),每次尝试引入 \(L\) 中一个元素,并开除 \(H\) 中一个元素。

考虑当前尝试引入 \(\b v\)。其在 \(H\)\(L\) 的前半下共同展开为 \(\sum a_i\b u_i+\sum b_i\b w_i\),其中 \(\b u_i\) 来自 \(H\)\(\b w_i\) 来自 \(L\) 的前半。因为 \(L\) 线性无关,所以 \(a_i\) 不可能全非零,于是从中挑出任一一个非零元 \(a_i\b u_i\),用 \(\b v\) 换掉 \(\b u_i\) 即可。

于是得到推论:任两组有限基含同数目元素。

一个线性空间是 有限维(finite-dimentional)的,若其任一组基含有限元素。该基的元素数目称作该线性空间的 维数(dimention)\(\dim(\s V)\)。非有限维即为 无限维(infinite-dimentional)

推论:对于 \(n\) 维线性空间 \(\s V\)

  • 其有限生成集含至少 \(n\) 元素;含恰 \(n\) 元素的有限生成集即为基。
  • 线性无关集含至多 \(n\) 元素;含恰 \(n\) 元素的线性无关集即为基。
  • 任一线性无关集可被扩充为基。

子空间的维数必然小于母空间的维数,且若二者等维则子空间等于母空间。

I.VII. Maximal Linearly Independent Subsets

对于集族 \(\c F\),其中的极大集合不存在包含之的其它集合。集族 \(\c C\) 是一个 (chain/nest/tower),若其中任两集合总有一包含另一。

Zorn 引理/第一极大原理(Maximal Principle):所有链都存在上界(包含链中所有集合为子集的集合)的集族存在极大元。

注意:以下定理与前一节中所述有区别,具体而言是其可以在无穷维线性空间中生效!

定理:极大线性无关子集是基。

因为 \(\s V\sube\span(S)\) 不然可以塞元素。

定理:线性无关集可以扩充为基。

考虑集族 \(\c F\) 为全体含该集的线性无关集,使用 Zorn 引理即证其中所有链有极大元。

考虑链中全体集合的并集,只需证其线性无关即有其属于 \(\c F\) 进而是极大元。

若其线性相关则其存在有限个元素的线性组合为零,这有限个元素必然同归属于链中某个集合,则该集合线性相关,出现矛盾,故其必然线性无关,故其有极大元,故其有基。

II. Linear Transformation and Matrices

II.I. Linear Transformations, Null Spaces, and Ranges

一个函数 \(\s T:\s U\to\s V\)线性映射(linear transformation),若:

  • \(\forall\b x,\b y\in\s U,\s T(\b x)+\s T(\b y)=\s T(\b x+\b y)\)
  • \(c\s T(\b x)=\s T(c\b x)\)

线性映射的验证只需验证 \(\s T(a\b x+\b y)=a\s T(\b x)+\s T(\b y)\)

\(\s I_{\s V}:\s V\to\s V\)恒等映射(identity transformation)。\(\s T_0:\s V\to\s W\)零映射(zero transformation)。

一个映射的 零空间(null space)/(kernel)\(\s N(\s T)\) 指满足 \(\s T(\b x)=0\) 的全体 \(\b x\) 构成集合。易验证其是 \(\s V\) 的子空间。一个映射的 值域(range)/(image)\(\s R(\s T)\) 指全体 \(\s T(\b x)\) 构成的集合。易验证其是 \(\s W\) 的子空间。

定理:若 \(\s V\) 有基 \(\beta\),则

\[\s R(\s T)=\span(\s T(\beta)) \]

映射的 零化度(nullity)\(\nullity(\s T)\)\(\s N(\s T)\) 的维数,而映射的 (rank)\(\rank(\s T)\)\(\s R(\s T)\) 的维数。

定理:

\[\nullity(\s T)+\rank(\s T)=\dim(\s V) \]

考虑 \(\s T(\beta)=\gamma\)。将 \(\gamma\) 排序,使得前 \(\rank(\s T)=m\)\(\gamma\) 构成 \(\s R(\s T)\) 的基(因为任何生成集总是可以被缩减为基)。则对于后 \(n-m\)\(\gamma\),有唯一一种分解为前 \(m\)\(\gamma\) 线性组合的方法。

现在考虑零空间中的一个元素。考虑后 \(n-m\)\(\beta\) 的系数确定,则其像对应的后 \(n-m\)\(\gamma\) 的系数亦被确定。现在要其为像为零,只能靠前 \(m\) 个系数来消它。因为每个 \(\gamma\) 被消掉的方法唯一确定,所以因像为零,则前 \(m\) 个系数也确定。故:后 \(n-m\)\(\beta\) 的系数可任选,一旦选定则前 \(m\)\(\beta\) 的系数则确定,故零空间维数即为 \(n-m\)

以上分析有误,因为后 \(n-m\) 个系数任选不可推得零空间维数为 \(n-m\)

考虑令 \(\beta_1,\dots\beta_k\) 为零空间基。扩充 \(\beta_{k+1},\dots,\beta_n\)\(\s V\) 基。

对于 \(\s T(\s V)\) 的一个元素,其必然可以写成 \(\s T(\sum u_i\beta_i)\) 的形式。但是前 \(\beta_1,\dots,\beta_k\) 都有 \(\s T(\beta_k)=0\),因此可以只考虑 \(\beta_{k+1}\sim\beta_n\),也即 \(\s T(\beta_{k+1\sim n})\)\(\s R(\s T)\) 的生成集。

因为这些元都不属于零空间,且其所有线性组合均不属于零空间,可知 \(\s T(\beta_i)\) 的任一非平凡线性组合均不可能组出 \(0\),因此其为基。

推论:单射当且仅当 \(\s N(\s T)=\{0\}\)

等有限维线性空间 \(\s V,\s W\) 通过线性映射 \(\s T\) 联系时,以下条件相等:

  • \(\s T\) 是单射。
  • \(\s T\) 是满射。
  • \(\rank(\s T)=\dim(\s V)\)

条件三与条件一等价。

满射则单射:若 \(\s T(\b x)=\s T(\b y)\),则 \(\s T(\b x-\b y)=0\)

单射则满射:\(\s T\) 会把基映到线性无关集(因为若基的映射线性组合得到零,则零就被多射了),有限场合即为基。【也可以使用:子空间维数等于母空间则子空间等于母空间定理】

  • 注意:非有限维的场合单射、满射无法互推。

对于 \(\s V\) 的基 \(\beta\)\(\s W\) 的集合 \(\gamma\)\(\s T:\beta_i\mapsto\gamma_i\)\(\s T\) 唯一。

推论:验证两线性变换是否相同只需验证基是否具有相同的像。

II.II. The Matrix Representation of a Linear Transformation

有序基(ordered basis)为字面意思:按顺序标好号的基向量们。则线性空间中的一个向量有其 关于有序基的坐标向量(coordinate vector relative to an ordered basis),记作 \([\b x]_\beta\),其是其唯一分解中各基系数排列成的列向量。这可以被看作一个 \(\s V\to\s F^n\) 的线性变换,易知该变换是双射。

对于线性变换 \(\s T:\s V\to\s W\),令 \(\s V\) 有基 \(\beta\)\(\s W\) 有基 \(\gamma\),则使用全体 \(\s T(\beta)\) 可以描述该 \(\s T\),而描述其的方式可以使用 \(\gamma\) 意义下的坐标向量们拼成一个矩阵:第 \(i\) 列即为 \([\s T(\beta_i)]_\gamma\)。该矩阵称作 线性变换关于有序基的矩阵表示(matrix representation),记作 \([\s T]_\beta^\gamma\);在线性变换的定义域等于值域且两有序基相同时,也可以简写为 \([\s T]_\beta\)

在全体 \(\s V\to\s W\) 的函数集合上,也可以定义加法和标量乘法。全体线性变换关于加法和标量乘法成线性空间,该线性空间记作 \(\c L(\s V,\s W)\)。该线性空间通过 \([\s T]_\beta^\gamma\) 双射于矩阵线性空间。

II.III. Composition of Linear Transformations and Matrix Multiplication

线性映射的复合仍是线性映射;线性映射的复合放到矩阵表示下就是矩阵乘法;即,

\[[\s{UT}]_\alpha^\gamma=[\s U]_\beta^\gamma[\s T]_\alpha^\beta \]

Kronecker delta 函数 \(\delta_{ij}=[i=j]\)。其等效于对角矩阵 \(I_n:(I_n)_{ij}=\delta_{ij}\)

易验证矩阵乘法与标量乘法间的交换律、结合律。

易验证 \([\s T(\b x)]_\gamma=[\s T]_\beta^\gamma[\b x]_\beta\)。因此 \(m\times n\) 矩阵的左乘对应着 \(\s F^m\to\s F^n\) 的线性映射 \(\s L_A(\b x)=A\bf x\)。此乃 左乘变换(left-multiplication transformation)。左乘变换双射于矩阵。

一个 关联矩阵(incidence matrix)可以被看作图论中的邻接矩阵,即 \(01\) 且对角线为零的矩阵。一个 支配矩阵(dominance matrix)是特殊的关联矩阵:其满足 \(A+A^T+I=\text{全一矩阵}\),即 \(A_{ij}=1\) 当且仅当 \(A_{ji}=0\);若 \(A_{ij}=1\),则称 \(i\) 支配(dominate)\(j\)。支配矩阵 \(A\) 满足如下性质:\(A+A^2\) 至少存在一行或一列除对角线全非零,即至少存在一个人可以在不超过两步内支配所有人或被所有人支配。

考虑 \(i\) 是支配最多人的人。若其没有支配 \(j\),则 \(j\) 必然支配 \(i\)\(j\) 不可能支配全体被 \(i\) 支配的人,否则 \(j\) 就比 \(i\) 支配更多人;因此必然有一个被 \(i\) 支配的人支配 \(j\),进而 \(i\) 在两步以内支配 \(j\)

因此:任一支配人数最多者满足条件;任一被最多人支配者亦满足条件。

II.IV. Invertibility and Isomorphisms

对于 \(\s T:\s V\to\s W\),称其 可逆(invertible),若存在 \(\s U:\s W\to\s V\) 使得 \(\s{TU}=\s I_\s W\)\(\s{UT=I_V}\)。称 \(\s U\)\(\s T\)逆元(inverse)。逆元唯一,记作 \(\s T^{-1}\)

线性可逆映射的逆亦是线性可逆的。

同理可知,\(n\times n\) 矩阵 \(A\) 可逆若存在 \(B\) 满足 \(AB=BA=I\)

可逆映射必然发生在等维空间(或者同为无穷维)之间。

两个存在可逆映射的线性空间称为 同构(isomorphic)的。同构构成等价关系。

可知:有限维线性空间同构当且仅当等维。\(m\) 维线性空间到 \(n\) 维线性空间的线性变换全体同构于 \(m\times n\) 矩阵全体。

线性空间 \(\s V\) 关于有序基 \(\beta\) 的标准表示(standard representation)是线性映射 \(\Phi_\beta:\s V\to\s F^n,\b x\mapsto[\b x]_\beta\)

II.V. The Change of Coordinate Matrix

对于 \(\s V\) 的两组基 \(\beta,\beta'\),令 \(Q=[\s{I_V}]_{\beta'}^\beta\)(即 \(\beta'\) 中的每个基向量在 \(\beta\) 上的分解),则:

  • \(Q\) 可逆。
  • \([\b x]_\beta=Q[\b x]_{\beta'}\)

\(Q\) 称作 坐标系变换矩阵(change of coordinate matrix),其 \(\beta'\) 坐标系变换为 \(\beta\) 坐标系(change \(\beta'\)-coordinates into \(\beta\)-coordinates)。

\(\s V\) 至自身的双射称作 线性算子(linear operator)。线性算子在 \(\beta\) 系和 \(\beta'\) 系下的矩阵表示可能不同:此时要研究二者间的关系,

发现:

\[[\s T]_{\beta'}=Q^{-1}[\s T]_\beta Q \]

换言之,因为 \([\s T]_\beta\) 其实是 \([\s T]_\beta^\beta\) 的简称,所以其实是

\[[\s T]_{\beta'}^{\beta'}=[\s I]_\beta^{\beta'}[\s T]_\beta^\beta[\s I]_{\beta'}^\beta \]

推论:令 \(A\in\s M_{n\times n}(F)\)\(\gamma\)\(\s F^n\) 的一组基,则 \([\s L_A]_\gamma=Q^{-1}AQ\)

\(A\) 其实是在标准基下左乘变换 \(\s L_A\) 的矩阵表示;\(Q\)\(\gamma\) 到标准基的坐标变换矩阵。

两个矩阵 相似(similar)若存在 \(Q\) 使得 \(B=Q^{-1}AQ\)

II.VI. Dual Spaces

线性函数(linear function)是从线性空间到标量(一维线性空间)的线性变换,常常用小写字母 \(\s f,\s g\) 等表示。

全体 \([0,2\pi]\) 上连续函数构成无穷维线性空间 \(\s V\)Fourier 系数(Fourier coefficient)

\[\s h(x)=\int_0^{2\pi}[\sin nt\lor\cos nt]x(t)\d t \]

\(\s V\to\R\) 上的线性函数。

\(\beta\) 下第 \(i\) 个坐标函数(\(i\)-th coordinate function with respect to the basis \(\beta\))是将 \(\b x\) 映到其在基 \(\beta\) 下第 \(i\) 分量值的线性变换,可记作 \(\s f_i\)

关于 \(F\) 定义的线性空间 \(\s V\),其对偶空间为 \(\c L(\s V,F)\),记作 \(\s V^*\)。显然,若 \(\s V\) 是有限维空间,则 \(\s V^*\) 与其等维。

定理:\(\beta\)\(\s V\) 的基,则 \(\beta^*=\{\s f_1,\dots,\s f_n\}\)\(\s V^*\) 的一组基,且对于任一 \(\s f\in\s V^*\),有

\[\s f=\sum_{i=1}^n\s f(\beta_i)\s f_i \]

\(\b x=\sum\s f_i(\b x)\beta_i\),于是 \(\s f(\b x)=\sum\s f(\beta_i)\s f_i(\b x)\),也即 \(\s f\) 可以被 \(\s f_i\) 线性表出,则 \(\s f_i\)\(\s V^*\) 的生成集,且 \(\s f\) 的元素数目等于 \(\s V^*\) 的维数。

定理:若 \(\s V,\s W\) 分别有基 \(\beta,\gamma\),对于 \(\s T:\s V\to\s W\),其对偶 \(\s T^t:\s W^*\to\s V^*,\s g\mapsto\s g\s T\) 是线性变换,且 \([\s T^t]_{\gamma^*}^{\beta^*}=([\s T]_\beta^\gamma)^t\)。由此我们可以定义一个映射的 转置(transpose)。可见:映射转置则其矩阵表示亦转置。

对于向量 \(\b x\),令 \(\hat{\b x}:\s V^*\to F,\hat{\b x}(\s f)=\s f(\b x)\),则 \(\hat{\b x}\)\(\s V\) 的二阶对偶 \(\s V^{**}\) 中元素。可以证明 \(\b x\mapsto\hat{\b x}\) 是双射,因此 \(\s V\cong\s V^{**}\)

II.VII. Homogeneous Linear Differential Equations with Constant Coefficients

关于未知函数 \(y=y(t)\) 的(一元)微分方程(differential function)如果是如下形式的方程:

\[\sum_{i=0}^na_iy^{(i)}=f \]

其中 \(a_i,f\) 都是关于时间的函数,则其是 线性(linear)的。若 \(f\) 是零函数,则其被称作 齐次(homogeneous)的。若 \(a_i\) 均为常数,则其是 常系数(constant coefficient)的。

\(n\) (order)常系数齐次线性微分方程的标准形式是

\[y^{(n)}+b_{n-1}y^{(n-1)}+\dots+b_0y=0 \]

导数算子 \(\s D=\dfrac{\d}{\d t}\)\(\scr C^\infty\to\scr C^\infty\) 的线性算子。因此上式可以被写成

\[(\s D^n+b_{n-1}\s D^{n-1}+\dots+b_0)y=0 \]

于是对于常系数齐次微分方程,可以定义其对应的 辅助多项式(auxiliary polynomial)

\[p(t)=t^n+b_{n-1}t^{n-1}+\dots+b_0 \]

然后写成

\[p(\s D)y=0 \]

\(p(\s D)\) 是线性算子,则全体解 \(y\) 是其零空间中元素,因此全体解构成 \(\scr C^\infty\) 中一线性空间(零空间),称作 解空间(solution space)。

\(p(\s D)\) 作为 \(n\) 阶多项式,在复数域上总是可以被因式分解为

\[p(\s D)=\prod_{i=1}^n(\s D-c_i\s I) \]

每个 \(y'=c_iy\) 的解均为 \(\span(e^{c_iy})\)。因此,若 \(c\)\(p(t)\) 的根,则 \(e^{ct}\) 是解空间中元素。

  • 但如果有重根咋办?

定理:解空间维数等于微分方程阶数。

引理:算子 \(\s D-c\s I:\scr C^\infty\to\scr C^\infty\) 总是满射,也即对于一切 \(v\),都存在 \(u\) 使得 \((\s D-c\s I)u=v\),也即方程 \(u'-cu=v\) 对于一切 \(v\) 均有解。

  • 证明靠微积分中的常数变易法。

引理:对于 \(\s V\) 上线性算子 \(\s U,\s T\),若有 \(\s U\) 满射、\(\s U,\s T\) 零空间有限维,则

\[\s{\dim(N(TU))=\dim(N(T))+\dim(N(U))} \]

  • 考虑 \(\s N(\s U)\) 的基 \(\beta_{1\sim m}\)。其张成空间中任一元均经 \(\s U\) 映到零,再经 \(\s T\) 仍是零,故其中任一元亦为 \(\s N(\s{TU})\) 中元素,则其为 \(\s N(\s{TU})\) 中线性无关集。可以扩张为基底 \(\beta_{1\sim n}\)

    因为 \(\s U\) 是满射,所以对于每个 \(\b x\in\s N(\s T)\),必然存在 \(\b y\) 使得 \(\s U(\b y)=\b x\),进而 \(\s U(\beta)=\gamma\) 必然生成 \(\s N(\s T)\)

    其中,\(\gamma_{1\sim m}=0\)。若存在 \(c_{m+1\sim n}\) 使得 \(\sum\limits_{i=m+1}^nc_i\gamma_i=0\),则 \(\s U(\sum\limits_{i=m+1}^nc_i\beta_i)=0\),但 \(\beta_{m+1\sim n}\) 并非 \(\s N(\s U)\) 中元素,因此不合法,故 \(\gamma_{m+1\sim n}\) 线性无关,是 \(\s N(\s T)\) 的基。故 \(\dim(\s N(\s U))=m,\dim(\s N(\s T))=n-m,\dim(\s N(\s{TU}))=n\)

通过以上二引理可以证明该定理。对 \(p(\s D)\) 归纳,每次复合上一个满射的 \(\s D-c\s I\) 即可。

没有重根时,对于不同的 \(c_i\)\(e^{c_it}\) 彼此线性无关,可成为基。

引理:若 \(c\)\(n\) 重根,则易验证 \(e^{c_it},\dots,t^{n-1}e^{c_it}\) 均是线性无关解。

然后即知常系数齐次线性微分方程的通解,即零空间的一组基。

III. Elementary Matrix Operations and Systems of Linear Equations

III.I. Elementary Matrix Operations and Elementary Matrices

基础行变换(elementary row operation)指下述变换之一:

  • 交换两行。
  • 将任一行乘以非零标量。
  • 将任一行的标量倍加到另一行上。

基础列变换(elementary column operation)同理。三种操作分别对应着三 (type)基础矩阵。

\(I_n\) 进行基础行变换后得到的矩阵被称作 基础矩阵(elementary matrix)。不区分基础行矩阵和基础列矩阵,因为易发现任一基础矩阵都存在一种行变换和一种列变换达到。

定理:基础行变换等效于左乘基础矩阵,而基础列变换等效于右乘基础矩阵。

基础矩阵总是可逆的,逆矩阵也是基础矩阵,且与原矩阵属于同一类基础矩阵。

III.II. The Rank of a Matrix and Matrix Inverses

一个矩阵的 (rank)是其对应的左乘变换的秩,也记作 \(\rank(A)\)

对于线性变换 \(\s T\),有 \(\rank(\s T)=\rank([\s T]_\beta^\gamma)\)

定理:对于 \(m\times n\) 矩阵 \(A\),若 \(P,Q\) 是可逆的 \(m\times m,n\times n\) 矩阵,则:

  • \(\rank(PA)=\rank(A)\)
  • \(\rank(AQ)=\rank(A)\)
  • \(\rank(PAQ)=\rank(A)\)

\(\s R(\s L_A\s L_Q)=\s L_A\s L_Q(\s F^n)=\s L_A(\s L_Q(\s F^n))\)。因为 \(\s L_Q\) 可逆所以其是满射,因此其等于 \(\s L_A(\s F^n)=\s R(\s L_A)\)\(P\) 的场合同理(真的吗?)

因此基础行变换保秩。

定理:秩等于最大线性无关列数;等于列向量张成空间的维数。

因为在其对应的左乘变换的场合,其像集即为列向量张成空间;故左乘变换的秩即等于列向量张成空间维数。

定理:任一矩阵通过 Gauss 消元都可以被消成如下形式:

\[\bmat{I_k&0\\0&0} \]

其中 \(0\) 代指任意形状的全零矩阵,且 \(k\) 等于秩。

推论:对于 \(A\) 存在可逆 \(B,C\)\(A\) 消成如前述的 \(BAC\)

推论:矩阵的秩等于矩阵转置的秩(对 \(BAC\) 转置即可),故行秩等于列秩,等于最大线性无关行向量数目或列向量数目。

推论:可逆矩阵总可以表为基础矩阵之积。

定理:对于 \(\s T:\s V\to\s W,\s U:\s W\to\s Z\),有 \(\rank(\s U\s T)\leq\rank(\s U),\rank(\s{UT})\leq\rank(\s T)\)\(\rank(AB)\leq\rank(A),\rank(AB)\leq\rank(B)\)

\(\s R(\s T)\sube\s W\),因此 \(\s U(\s R(\s T))\sube\s R(\s U)\),因此 \(\s R(\s {UT})\sube\s R(\s U)\);将 \(\s U\) 定义域限制为 \(\s R(\s T)\) 得到 \(\s U'\),于是 \(\rank(\s U')\leq\dim(\s U')=\rank(\s T)\)

定义:对于 \(m\times n\)\(A\)\(m\times p\)\(B\),其 增广矩阵(augmented matrix)\(A|B\)\(m\times(n+p)\) 的矩阵,即在 \(A\) 右侧摆放 \(B\) 得到的矩阵。

为求出可逆矩阵的逆矩阵,在其右侧摆放 \(I_n\),当其被行变换消成 \(I_n\) 时,原本的 \(I_n\) 即被消成它的逆。

III.III. Systems of Linear Equations - Theoretical Aspects

线性方程组的 系数矩阵(coefficient matrix)为各变量前系数按顺序排列成的矩阵。此时线性方程组可以被写成解方程

\[A\b x=\b b \]

的形式。满足上式的 \(\b x\) 被称作一个 (solution)。全体解构成 解集(solution set)。一致(consistent)的方程组的解集非空;不一致(inconsistent)则为空。

齐次(homogeneous)的线性方程组满足 \(\b b=0\),反之则称为 非齐次(nonhomogeneous)。

齐次方程的解集即为其对应左乘变换的零空间,因此有

\[\dim(\s K)=n-\rank(A) \]

其中 \(\s K\) 为解空间。

非齐次方程 \(A\b x=\b b\) 对应的齐次方程 即指方程 \(A\b x=0\)

定理:令 \(K\) 为非齐次方程解集,\(\s{K_H}\) 为对应齐次方程的解空间,则令 \(\b s\)\(K\) 中任一元素,则有

\[K=\{\b s\}+\s{K_H}=\{\b{s+x}\mid\b x\in\s{K_H}\} \]

\(\b s\) 是一解,\(\b s'\) 是一解,则 \(\b s-\b s'\) 即为齐次解,反之亦然。

定理:若 \(A\b x=\b b\) 满足 \(A\) 可逆,则其有唯一解,即 \(A^{-1}\b b\);反之,若有唯一解,则 \(A\) 可逆。

方程 \(A\b x=\b b\)增广矩阵(augmented matrix)亦为 \(A|\b b\)

定理:方程一致当且仅当 \(\rank(A)=\rank(A|\b b)\)

这是因为,\(A\b x=\b b\) 有解当且仅当 \(\b b\) 可以由 \(A\) 的列向量线性表示。

III.IV. Systems of Linear Equations - Computational Aspects

两个方程组 等价 若其有相同解集。

定理:方程 \(A\b x=\b b\) 等价于方程 \((CA)\b x=C\b b\),若 \(C\) 是可逆矩阵。

推论:对 \(A|\b b\) 作初等行变换不改变解集。

一个矩阵是 约化行阶梯型矩阵(reduced row echelon form),若:

  • 若某行有非零项,则其位于一切不含非零项的行之前。
  • 每行的首个非零项是该列的唯一非零项。
  • 每行的首个非零项为 \(1\),且位于前一行的首个非零项右侧。

约化行阶梯型矩阵唯一。求约化行阶梯型矩阵的方法被称作 Gauss 消元(Gaussian elimination)。

若增广矩阵的约化阶梯型矩阵中,某行中唯一非零项落在最后一行,则其不一致。

III.EX. Extra Notions from 'Linear Algebra and Its Applications'

行阶梯型矩阵(echelon form)仅需满足:

  • 所有非零行在零行上方。
  • 首个非零项位于前一行的首个非零项右侧。
  • 首个非零项正下方不再有非零项。

主元位(pivot position)是简化阶梯型矩阵中,每行的首个 \(1\) 所在的位置;其所在行即为 主元列(pivot column)。

主元列对应的变量被称作 基变量(basic variable);其余变量被称作 自由变量(free variable);自由变量一旦全部固定,则基变量的值随即固定。因此 通解(general solution) 可以被如下模式表示:

  • 特解 \(\b s_0\) 使用约化阶梯型矩阵最右侧的向量为基变量赋值。
  • 一个自由变量对基变量的影响,是为基变量整体增加自由变量对应的列向量的值。

IV. Determinants

IV.I. Determinants of Order \(2\)

二阶矩阵 \(\bmat{a&b\\c&d}\)行列式(determinant)被定义为标量 \(ad-bc\)

行列式并非 \(\s M_{2\times2}(F)\to F\) 的线性变换;但它确实有一个好的线性性,即为:

  • 当除了某一行/列外,其它位置全都固定时,行列式关于本行/列存在线性性。也即,有如 \(\det\bmat{\b u+k\b v&\b w}=\det\bmat{\b u&\b w}+k\det\bmat{\b v&\b w}\)

Cramer 法则:二阶方阵逆矩阵可以写成

\[A^{-1}=\dfrac1{\det(A)}\bmat{A_{22}&-A_{12}\\-A_{21}&A_{11}} \]

对于 \(\s R^2\) 的有序基 \(\beta=\{\b u,\b v\}\),其 定向(orientation)为

\[\O\bmat{\b u\\\b v}=\dfrac{\det\bmat{\b u\\\b v}}{\left|\det\bmat{\b u\\\b v}\right|} \]

\(\in\pm1\)右手系(right-handed system)的定向为 \(1\),反之为 \(-1\) 即为 左手系(left-handed system)。

两向量张成的平行四边形的有向面积即为其行列式的实际意义。有向面积的绝对值被记作 \(\A\bmat{\b u\\\b v}\)

IV.II. Determinants of Order \(n\)

余子式(minor)是矩阵删掉一行一列并求行列式的结果,常常记作 \(\tilde A_{ij}\)代数余子式(cofactor)则是其乘以 \((-1)^{i+j}\) 的结果。

对于 \(n\) 阶行列式,递归地定义之为

\[\det(A)=\sum_{i=1}^nA_{ij}(-1)^{1+j}\det(\tilde A_{1j}) \]

记代数余子式

\[c_{ij}=(-1)^{i+j}\det(\tilde A_{ij}) \]

于是有

\[\det(A)=\sum_{i=1}^n A_{1i}c_{1i} \]

称为 沿第一行的代数余子式展开(cofactor expansion along the first row)。

\(n\) 阶行列式同样满足关于某一行或列的线性性。证明归纳。

因此有结论:某行/列为零的矩阵行列式为零。

通过证明若某行/列向量为单位向量则其值即为对应位置的 \(A_{ij}c_{ij}\) 后,即可证明行列式可以关于任一行/列展开。

交换两行/列会使行列式取反;将一行的常数倍加到另一行上不改变行列式(对被加的那一行使用线性性展开为原矩阵和一个有重复行的矩阵),因此非满秩矩阵的行列式为零;一行乘以 \(k\) 倍则行列式乘以 \(k\);由此可以在 Gauss 消元的过程中维护行列式。

IV.III. Properties of Determinants

行列式的积等于积的行列式。

若两个 factor 中有一个不满秩,则因为积的秩不超过成分的秩,所以积必然不满秩,故此时二者均为零;若均满秩,则都可以分解为基础矩阵的积。

因此有推论:逆矩阵的行列式为倒数;转置矩阵的行列式不变(因为每个基础矩阵转置不变行列式)

Cramer 法则:令 \(A\b x=\b b\) 是方程。若 \(\det(A)\neq0\),则其有唯一解,且满足 \(x_k=\dfrac{\det(M_k)}{\det A}\),其中 \(M_k\) 是将 \(A\) 的第 \(k\) 列换成 \(\b b\) 得到的矩阵。

\(\b a_k\) 为其第 \(k\) 个列向量。令 \(X_k\) 为单位矩阵第 \(k\) 行换成 \(\b x\) 得到的矩阵,则计算 \(AX_k=M_k\)。对 \(X_k\) 关于第 \(k\) 列代数余子式展开得到 \(\det(X_k)=x_k\),于是 \(\det(A)x_k=\det(M_k)\),然后知 Cramer 法则。

使用 Cramer 法则可知,如 \(A\) 的行列式为 \(\pm1\),则该方程必有整数解。

Cramer 法则比起计算更适合拿来分析。

IV.IV. Summary - Important Facts about Determinants

……唔,好像没提供任何有效信息的说。

IV.V. A Characterization of the Determinant

行列式是 \(n\)-线性函数(\(n\)-linear function)的例子,它是一类类似于 \(\s V^n\to F\) 的变换,满足对于 \(\s V^n\) 的每一维,固定其它仅变动这一维时,它是线性函数。

同时,它还具有 交错(alternating)的性质,即:相邻两行相同则函数值为零。分析可得,该性质在结合线性性后,等效于交换两行会取反函数值,或是任两行(不一定相邻)相同则函数值为零。

行列式是唯一一个满足下述性质的函数:

  • \(n\)-线性。
  • \(\delta(I)=1\)
  • 交错。

因为行列式的所有推理都只需如上三性质(使用矩阵的基本矩阵分解分析)。

V. Diagonalization

V.I. Eigenvalues and Eigenvectors

一个线性算子 \(\s T\) 被认为是 可对角化(diagonalizable)的,如果其在某个基 \(\beta\) 下的 \([\s T]_\beta\) 是对角矩阵;矩阵被认为是 可对角化 的,如果它对应的 \(\s L_A\) 可对角化。

对于使用 \(\beta\) 对角化的 \(\s T\),则 \(\s T(\beta_j)=D_{jj}\beta_j=\lambda_j\beta_j\),其中 \(\lambda_j=D_{jj}\);相反,若对于全体 \(\beta_i\) 都有 \(\s T(\beta_i)=\lambda_i\beta_i\) 则显然有 \([\s T]_\beta\) 为由 \(\lambda\) 构成之对角矩阵。

特征向量(eigenvector)是满足 \(\s T(\b v)=\lambda\b v\) 的向量 \(\b v\),其对应的 \(\lambda\) 称为 特征值(eigenvalue)。矩阵的场合同理。

定理:线性算子可对角化当且仅当存在由特征向量组成的一组基;而对一个矩阵/线性算子 对角化 即为寻找该特征向量的过程。

定理:\(\lambda\) 是特征值,当且仅当 \(\det(A-\lambda I_n)=0\)

于是定义相应的 特征多项式(characteristic polynomial)为 \(f(x)=\det(F-xI_n)\)

相似的矩阵总具有相同的特征多项式。

\(\det(P-\lambda I)=\det(Q)\det(P-\lambda I)\det(Q^{-1})=\det(QPQ^{-1}-\lambda I)\)

因此,\(\s T\) 无论在哪个基下展开,得到的特征多项式均相同,故可以直接对线性算子定义特征多项式,记作 \(\det(\s T-\lambda\s I)\)。需要注意的是,具体计算特征多项式的场合,还是应依托具体基底展开再议。

定理:特征多项式是首项系数为 \((-1)^n\)\(n\) 阶多项式,故有至多 \(n\) 个不等特征多项式。

定理:\(\b v\)\(\s T\) 对应 \(\lambda\) 之特征向量,当且仅当 \(\b v\neq\b0\)\(\b v\in\s N(\s T-\lambda\s)\)

定理:\(\b v\)\(\s T\) 的特征向量,当且仅当其在 \(\beta\) 基意义下的展开 \([\b v]_\beta\)\(\s T\)\(\beta\) 基意义下的表示 \([\s T]_\beta\) 的特征向量。

V.II. Diagonalizability

定理:拥有两两不同特征值的线性算子,各特征值对应特征向量线性无关。

在线性相关时,取一组基 \(\b v_1,\dots,\b v_m\) 和一个基外的 \(\b v_0\),不妨令 \(\lambda_0\neq0\)(否则可以重新选一组基,用一个特征值非零的向量换掉 \(\b v_0\))。有

\[\b v_0=\sum_{i=1}^mc_i\b v_i \]

于是

\[\lambda_0\b v_0=\s T(\b v_0)=\s T\left(\sum_{i=1}^m c_i\b v_i\right)=\sum_{i=1}^mc_i\lambda_i\b v_i \]

\[\b v_0=\sum_{i=1}^mc_i\dfrac{\lambda_i}{\lambda_0}\b v_i \]

因为特征值两两不同,所以必有 \(\dfrac{\lambda_i}{\lambda_0}\neq1\),因此 \(\b v_0\) 存在两组不同的系数展开,不合法,故假设不对,不存在基和基外的 \(\b v_0\),则其必然线性无关。

推论:不等特征值推出可对角化。

多项式 \(f(x)\in F[x]\)\(F\)分裂(splits over \(F\)),若其所有根都属于 \(F\)

定理:可对角化线性算子的特征多项式必然在其定义线性空间 \(\s V\) 依托的域 \(F\) 上分裂。

因为其可对角化,所以存在特征向量与特征值,特征值都是 \(F\) 上标量。

定义:对于特征多项式的根 \(\lambda\),其 (代数)重数(algebraic multiplicity)是其作为重根数目。

\(\s T\) 通过特征向量基 \(\beta\) 可对角化,则每个 \(\lambda\) 会在对角矩阵 \([\s T]_\beta\) 的对角线上出现重数次。因此,研究可对角化性就是在研究对于每个 \(\lambda\) 能否找到与重数相等数目的特征向量。而特征向量都是 \(\s N(\s T-\lambda\s I)\) 的元素,因此该空间被称作 特征空间(eigenspace),可记作 \(\s E_\lambda\)

定理:特征空间的维数 \(\dim(\s E_\lambda)\) 满足 \(1\leq\dim(\s E_\lambda)\leq m\),其中 \(m\)\(\lambda\) 的重数。

首先,因为 \(\lambda\) 是特征值,则其至少有一个特征向量。

若存在 \(\b v_1,\dots,\b v_{m+1}\) 作为一组线性无关 \(\lambda\)-特征向量,则其可以被扩充为基 \(\beta\),此时

\[[\s T]_\beta=\bmat{\lambda I_{m+1}&A\\B&C}{} \]

其中 \(A,B,C\) 为任意矩阵块。计算行列式可知,该坨东西必然有特征多项式含 \((\lambda-x)^{m+1}\) 的部分,与重数是 \(m\) 不符。

引理:自每个不同的 \(\lambda_i\) 的特征空间中取一个 \(\b v_i\),则 \(\sum\b v_i=0\) 当且仅当全体 \(\b v_i\) 均为零。

由本节开头定理推知。

推论:自每个不同的 \(\lambda_i\) 的特征空间中取一批线性无关的 \(\b v_i\),所有集合取并仍线性无关。

最终结论:矩阵可对角化,当且仅当全体特征空间维数等于重数;且此时,直接取每个特征空间的一组基,其并构成全空间一组基。


对于一阶常系数齐次微分方程组 \(\b x'=A\b x\),若是能对角化,那就再好不过了:因为此时有 \(\b x'=QDQ^{-1}\b x\),通过换元 \(Q^{-1}\b x=\b y\),有 \(\b y'=D\b y\),此时则可解。


定义:子空间的 (sum)

\[\sum_{i=1}^n\s W_i=\{\sum_{i=1}^n\b v_i\mid\b v_i\in\s W_i\} \]

特别地,如果对于所有的 \(\s W_j\) 均满足其与 \(\sum\limits_{i\neq j}\s W_i\) 交仅含 \(0\) 向量,则该和称作 直和(direct sum)。

注意,两两交为零向量并不符合要求。例如,过原点的全体直线两两交均为零向量,但最多仅能挑出两个作直和。

定理:以下条件等价:

  • 母空间 \(\s V\) 由子空间 \(\s W_i\) 们直和得到。
  • 由和得到,且满足:任一组自每个子空间各出一个向量且和为零的组合,必有全体向量为零。
  • \(\s V\) 中的每个向量存在分解到每个 \(\s W_i\) 中的唯一方案。
  • 每个 \(\s W_i\) 各取一个有序基,拼一块构成 \(\s V\) 的有序基。
  • 上一条定理的存在版本(存在一组 \(\s W_i\) 的有序基,拼一块仍是有序基)。

使用直和语言,可知:\(\s T\) 可对角化,当且仅当特征空间直和为全空间。

V.III. Matrix Limits and Markov Chains

矩阵列收敛,若每个位置独立收敛。因为矩阵元素有限(换言之其实是一致收敛),所以易知矩阵极限与矩阵乘法、标量乘法均可交换。

现在考虑求复矩阵幂 \(A^n\) 的极限。有结论:其存在,当且仅当如下两条件均成立:

  • 所有复特征值的模长均不超过 \(1\)
  • \(1\) 是特征值,则其特征空间维度等于重数。

第一条的证明考虑 \(A^n\b v\) 其中 \(\b v\) 是特征向量。

第二条的证明一光年以后会出现。

其中,第二条可以变成更强的“可对角化”,此时直接求 \(QDQ^{-1}\) 的幂次即可。

定义:复矩阵的 \(\rho_i(A)\) 为对第 \(i\) 行元素模长求和的结果;同理有对列模长求和的 \(\nu_i(A)\)行和(row sum)函数 \(\rho(A)\)列和(column sum)函数 \(\nu(A)\) 分别为二者各自的最大值。

定义 Gerschgorin 盘(Gerschgorin disk)为

\[C_i=\{z\mid|z-A_{ii}|\leq r_i:=\rho_i(A)-|A_{ii}|\} \]

则有如下的 Gerschgorin 盘定理(Gerschgorin's Disk Theorem):每个特征值必须落入某个 Ger 盘中。

若特征值 \(\lambda\) 对应特征向量 \(\b v=\bmat{v_1\\\vdots\\v_n}\)。则

\[\sum_{j=1}^nA_{ij}v_j=\lambda v_i \]

取模长最大的 \(v_k\),则其必非零。下证 \(\lambda\in C_k\),即 \(|\lambda-A_{kk}|\leq\rho_i(A)-|A_{kk}|=r_k\)

\[|\lambda v_k-A_{kk}v_k|=\left|\sum_{j\neq k}A_{kj}v_j\right| \\\leq\sum_{j\neq k}|A_{kj}||v_k|=|v_k|r_k \]

然后知 \(|\lambda-A_{kk}|\leq r_k\)

推论:全体特征值落入 \(\rho(A)\) 盘中;同理可知落入 \(\nu(A)\) 盘中,因此落入二者较小值盘中。

因此,对于概率转移矩阵,必然有全体特征值模长均不超过 \(1\)。且,因为稳定向量必存在,所以必存在 \(1\)-特征值。

定理:对于全正矩阵,若存在 \(|\lambda|=\rho(A)\),则必有 \(\lambda=\rho(A)\),且对应特征空间维数为一、特征向量为全一向量。

V.IV. Invariant Subspaces and the Cayley-Hamilton Theorem

一个 \(\s T\)-不变子空间(invariant subspace)是指满足 \(\s T(\s W)\sube\s W\) 的空间。

以下子空间必然是不变子空间:

  • \(\s V\)
  • \(\{0\}\)
  • \(\s R(\s T)\)
  • \(\s N(\s T)\)
  • \(\s E_\lambda(\s T)\)

易知:不变子空间的交、并都是不变子空间。

一个 \(\b x\) 生成的 \(\s T\)-循环子空间(\(\s T\)-cyclic subspace generated by \(\b x\)) 即为 \(\span(\{\b x,\s T(\b x),\s T^2(\b x),\dots\})\)。易证:循环子空间必是不变子空间。

定理:令 \(\s W\)\(\s T\) 的不变子空间,则 \(\s T_\s W\),即 \(\s T\) 将定义域(和值域,因为 \(\s W\) 是不变子空间)缩减到 \(\s W\) 后得到的新线性算子,其特征多项式会是 \(\s T\) 特征多项式的因式。

考虑取 \(\s W\) 的一组基 \(\beta\),然后将其扩充为 \(\s T\) 的基并仍称其 \(\beta\)。考虑 \([\s T]_\beta\),会发现其必有

\[\bmat{A&B\\O&C} \]

的形式,其中 \(O\) 是全零矩阵,而 \(A\) 即为 \([\s T_\s W]_\beta\)。然后易知特征多项式的相互关系。

故,通过 \(\s T_\s W\) 的特征多项式,我们得以一窥 \(\s T\) 的特征多项式。

定理:令 \(\s W\) 是由 \(\b x\) 生成的循环子空间,\(k\) 为其维数,则:

  • \(\b x,\dots,\s T^{k-1}(\b x)\)\(\s W\) 的基。
  • \(\s T^k(\b x)\) 的线性相关性由 \(\sum\limits_{i=0}^{k-1}a_i\s T^i(\b x)+\s T^k(\b x)=\b 0\) 保证,则 \(\s T_\s W\) 的特征多项式即为 \((-1)^k(x^k+\sum\limits_{i=0}^{k-1}a_ix^i)\)

第一条可以证明,若

\[\s T^k(\b x)=\sum_{i=0}^{k-1}a_i\s T^i(\b x) \]

\[\s T^{k+1}(\b x)=\s T\left(\sum_{i=0}^{k-1}a_i\s T^i(\b x)\right) \\=\sum_{i=0}^{k-1}a_i\s T^{i+1}(\b x) \\=a_{k-1}\s T^k(\b x)+\sum_{i=1}^{k-1}a_{i-1}\s T^i(\b x) \\=\sum_{i=0}^{k-1}(a_{i-1}+a_{k-1}a_i)\s T^i(\b x) \]

进而可以归纳证明,若 \(\s T^k(\b x)\) 可以表示为 \(\b x,\dots,\s T^{k-1}(\b x)\) 的线性组合,则全体 \(k'\geq k\) 均可,这意味着基必须是一段前缀;又因为基向量数目等于维数,所以必须恰为前 \(k\) 个。

进而,在这组基下有

\[[\s T_\s W]_\beta=\bmat{0&0&\dots&0&-a_0\\1&0&\dots&0&-a_1\\\vdots&\vdots&\ddots&\vdots&\vdots\\0&0&\dots&0&-a_{k-2}\\0&0&\dots&1&-a_{k-1}} \]

算这玩意的特征多项式即可。

Cayley-Hamilton 定理(Cayley-Hamilton Theorem):令 \(\s T\) 是线性变换,\(f(x)\) 为其特征多项式,则 \(f(\s T)=\s T_0\),即零变换(将所有元素映为零的变换)。

只需对于一切 \(\b x\) 证明 \(f(\s T)(\b x)=\b0\)

对于 \(\b x\),取其生成的循环子空间 \(\s W\),其对应特征多项式 \(g(x)\) 满足

\[g(\s T)(\b x)=(-1)^k\sum_{i=0}^{k-1}a_i\s T^i(\b x) \\=(-1)^{k+1}\left(\s T^k(\b x)+\sum_{i=0}^{k-1}a_i\s T^i(\b x)\right) \\=0 \]

而因为 \(g(x)\mid f(x)\),所以该条件对 \(f(\s T)(\b x)\) 亦成立。

推论:在矩阵的场合,令 \(f(x)\)\(A\) 的特征多项式,则有 \(f(A)=O\),其中 \(O\) 为零矩阵。


定理:令 \(\s W_i\)\(\s T\)-不变子空间,且满足 \(\s V=\bigoplus\limits_{i=1}^n\s W_i\),则令 \(f_i\)\(\s T_{\s W_i}\) 的特征多项式,\(f\)\(\s T\) 的特征多项式,则有 \(f=\prod f_i\)

证明直接取基然后得到

\[[\s T]_\beta=\bmat{[\s T_{\s W_1}]_{\beta_1}\\&[\s T_{\s W_2}]_{\beta_2}\\&&\ddots\\&&&[\s T_{\s W_n}]_{\beta_n}} \]

\(\s T\) 可对角化的场合,满足 \(\s V=\bigoplus\limits\s E_{\lambda_i}\),且 \(\s E_\lambda\) 均为不变子空间,因此即有 \(f=\prod(\lambda_i-x)^{m_i}\)

定义:两个矩阵的 直和(direct sum)为:

\[B_1\oplus B_2=\bmat{B_1\\&B_2} \]

同理易定义多矩阵直和。注意,和子空间直和不一致的是,矩阵直和没有交换律。

于是,使用矩阵直和的描述方法,即有 \([\s T]_\beta=\bigoplus[\s T_{\s W_i}]_{\beta_i}\)

VI. Inner Product Spaces

VI.I. Inner Products and Norms

在线性空间上定义的一个映到 \(F\) 的二元函数 \(\ip\cdot\cdot\) 被称作 内积(inner product),如果它满足如下性质:

  • (双)线性性 \(\ip{a\b x+b\b z}{\b y}=a\ip{\b x}{\b y}+b\ip{\b z}{\b y}\)
  • 交换性 \(\ovl{\ip{\b x}{\b y}}=\ip{\b y}{\b x}\),其中 \(\ovl z\) 为取复数共轭。(当然,这发生在定义域是数域的场合)
  • 正定性 \(\ip{\b x}{\b x}>0\)\(\b x\neq\b0\)

\(\s F^n\) 上的 标准内积(standard inner product)为

\[\ip{(a_1,\dots,a_n)}{(b_1,\dots,b_n)}=\sum a_i\bar b_i \]

特别地,在 \(\s F=\mathbb R\) 的场合,共轭可以忽略。

一个矩阵的 共轭转置(conjugate transpose/adjoint)矩阵 \(A^*\) 满足 \((A^*)_{ij}=\bar A_{ji}\)

通过共轭转置,可以定义两个矩阵的 Frobenius 内积(Frobenius inner product)

\[\ip AB=\tr(B^*A) \]


定义了内积的线性空间乃是 内积空间(inner product space);分 \(F\) 为实数域或复数域,可以有 实内积空间(real inner product space)或 复内积空间(complex inner product space)。甚至,\([-\pi,\pi]\) 上所有分段 Riemann 可积函数关于

\[\ip fg=\dfrac1{2\pi}\int_{-\pi}^\pi f(x)\bar g(x)\d x \]

也构成内积空间。

内积空间可以由内积本身推出一些额外的二级结论:

  • \(\ip{\b x}{\b 0}=\ip{\b 0}{\b x}=0\)
  • 若对于全体 \(\b x\) 均有 \(\ip{\b x}{\b y}=\ip{\b x}{\b z}\),则必有 \(\b y=\b z\)

依托内积空间可以定义 范数(norm) 或 长度(length) \(\|\cdot\|=\sqrt{\ip\cdot\cdot}\)

范数满足特有的性质:

  • Cauchy-Schwarz 不等式:\(|\ip{\b x}{\b y}|\leq\|\b x\|\|\b y\|\)
  • 三角不等式:\(\|\b x+\b y\|\leq\|\b x\|+\|\b y\|\)

C-S 表达式的证明比较神奇。

取系数 \(c\),有

\[0\leq\|\b x-c\b y\|^2=\ip{\b x-c\b y}{\b x-c\b y} \\=\ip{\b x}{\b x}-\bar c\ip{\b x}{\b y}-c\ip{\b y}{\b x}+c\bar c\ip{\b y}{\b y} \]

此时,取 \(c=\dfrac{\ip{\b x}{\b y}}{\ip{\b y}{\b y}}\),即有

\[0\leq\ip{\b x}{\b x}-\dfrac{|\ip{\b x}{\b y}|^2}{\ip{\b y}{\b y}}=\|\b x\|^2-\dfrac{|\ip{\b x}{\b y}|^2}{\|\b y\|^2} \]

即得 C-S 不等式。

三角不等式直接拆 \(\ip{\b x+\b y}{\b x+\b y}\) 即可。

\(\ip{\b x}{\b y}=0\) 则称二者为 正交(orthogonal)或 垂直(perpendicular)。一个集合 正交 若其中向量两两正交。若 \(\|\b x\|=1\) 则称之为 单位向量(unit vector)。若正交集合中所有向量都是单位向量,则称之为 正交归一(orthonormal)。

特别地,\(S\) 正交归一当且仅当 \(\ip{\b v_i}{\b v_j}=\delta_{ij}\),其中 \(\delta\) 是 Kronecker Delta。另,对向量乘以非零标量不影响正交性,因此通过将全体向量乘以 \(\dfrac1{\|\b x\|}\) 令其归一的过程被称作 正则化(normalizing)。

VI.II. The Gram - Schmidt Orthogonalization Process and Orthogonal Compliments

内积空间中可以定义 单位正交基(orthonormal basis),即单位正交的基底。

定理:对于任一正交集合 \(S\),令 \(\b y\in\span(S)\),则有

\[\b y=\sum_{i=1}^n\dfrac{\ip{\b y}{\b v_i}}{\|\b v_i\|^2}\b v_i \]

\(\b y=\sum_{i=1}^na_i\b v_i\),则

\[\ip{\b y}{\b v_j}=\sum_{i=1}^na_i\ip{\b v_i}{\b v_j} \]

而因为正交性,除 \(i=j\) 的场合,其它位置的内积均为零,故

\[\ip{\b y}{\b v_j}=a_i\ip{\b v_i}{\b v_i} \]

除过去即可。

推论:元素全非零的正交集合必线性无关。【因为 \(\b 0\) 的线性表达可以由上式确定】

Gram-Schmidt 过程(Gram-Schmidt process)是一种由线性无关集合生成正交集合且不改变其张成空间的过程。它如下进行:

  • 依次考虑第 \(i\) 个向量,并从中剔除那些与前 \(i-1\) 个向量的非正交分量。

  • 写成数学语言就是,令 \(\{\b w_i\}\) 是线性无关集合,\(\{\b v_i\}\) 是由之构建之正交集合,则

    \[\b v_k=\b w_k-\sum_{i=1}^{k-1}\dfrac{\ip{\b w_k}{\b v_i}}{\|\b v_i\|^2}\b v_i \]

全体 \(\b v_k\) 非零由线性无关性保证;于是只需证明 \(\b v_i,\b v_k\) 正交即可,证明同前一定了。

\([-1,1]\) 上全体多项式的基底 \(\{1,x,x^2,\dots\}\) 使用 G-S 正交化,可以得到一批多项式,被称作 Legendre 多项式

定理:任一非零有限维线性空间均存在单位正交基。

对于内积空间 \(\s V\) 的正交归一子集 \(\beta\),元素 \(\b x\in\s V\)Fourier 系数(Fourier coefficients)被定义为全体 \(\ip{\b x}{\beta_i}\)

定义:对于内积空间 \(\s V\) 的子集 \(S\),其 正交补(orthonormal complement)\(S^\perp\) 由全体与 \(S\) 中每一个向量全部正交的元素构成。

定理:令 \(\s W\) 为内积空间 \(\s V\) 的有限维子空间,则 \(\s V\) 中每个向量 \(\b y\) 都可以唯一分解为 \(\s W\)\(\s W^\perp\) 中两个向量 \(\b u,\b z\) 的和。进一步,令 \(\{\b v_1,\dots,\b v_k\}\)\(\s W\) 的一组单位正交基,则

\[\b u=\sum_{i=1}^k\ip{\b y}{\b v_i}\b v_i \]

考虑依上法求得 \(\b u\) 后,计算 \(\ip{\b z}{\b v_i}\) 以验证 \(\b z\) 确实属于正交补。

\[\ip{\b z}{\b v_i}=\ip{\b y-\b u}{\b v_i}=\ip{\b y}{\b v_i}-\ip{\b u}{\b v_i}=0 \]

该分解是唯一的,因为若存在另一组 \(\b u'+\b z'\)\(\b{u-u'}=\b{z'-z}\in\s W\cap\s W^\perp=\{\b0\}\)

因此,依上法求得之 \(\b u\) 乃是 \(\s W\) 中最贴近 \(\b y\) 之向量。

定理:令 \(\{\b v_1,\dots,\b v_k\}\) 是正交归一集,则其可以被扩充为单位正交基,且扩充的 \(\{\b v_{k+1},\dots,\b v_n\}\) 恰为正交补的一组单位正交基。进一步,有 \(\dim(\s V)=\dim(\s W)+\dim(\s W^\perp)\)

取正交补的任一组正交单位基补充即可。易知其确实是基。

VI.III. The Adjoint of a Linear Operator

Riesz 表示定理:对于每个线性函数(回忆起这是对偶空间中的元素,即从线性空间到标量的线性变换)\(\s g:\s V\to F\),存在唯一的 \(\b y\in\s V\) 使得 \(\s g(\b x)=\ip{\b x}{\b y}\)

取任一组单位正交基,然后令

\[\b y=\sum_{i=1}^n\ovl{\s g(\b v_i)}\b v_i \]

则对于 \(\b x=\sum a_i\b v_i\),有

\[\ip{\b x}{\b y}=\sum_{i=1}^n\ip{a_i\b v_i}{\ovl{\s g(\b v_i)}\b v_i}=\sum_{i=1}^na_i\s g(\b v_i) \]

由内积的性质,若对于全体 \(\b x\) 均有 \(\ip{\b x}{\b y}=\ip{\b x}{\b z}\),则必有 \(\b y=\b z\),可知 \(\b y\) 唯一。

定理:对于每个 \(\s T\),都存在唯一的 \(\s T^*\) 满足 \(\ip{\s T(\b x)}{\b y}=\ip{\b x}{\s T^*(\b y)}\),且其是线性的。

对于固定的 \(\b y\) 而言,映射 \(\s g:\b x\mapsto\ip{\s T(\b x)}{\b y}\) 是线性映射,因此存在唯一的 \(\s T^*(\b y)\),其定义式即为

\[\s T^*(\b y)=\sum_{i=1}^n\ovl{\s g(\b v_i)}\b v_i=\sum_{i=1}^n\ovl{\ip{\s T(\b v_i)}{\b y}}\b v_i=\sum_{i=1}^n\ip{\b y}{\s T(\b v_i)}\b v_i \]

易验证其线性性。

上述 \(\s T^*\) 被称作 \(\s T\)伴随(adjoint)映射。

  • 注意,无限维线性空间下,伴随不一定存在。

定理:对于任一单位正交基,有

\[[\s T]_\beta^*=[\s T^*]_\beta \]


最小二乘法。考虑采样点 \((t_i,y_i)\) 和近似线 \(y=ct+d\),则使用所有点到近似线垂直距离的平方和

\[E=\sum_{i=1}^m(y_i-ct_i-d)^2 \]

衡量拟合的误差。若令

\[A=\bmat{t_1&1\\\vdots&\vdots\\t_m&1},\b x=\bmat{c\\d},\b y=\bmat{y_1\\\vdots\\y_m} \]

\(E=\|\b y-A\b x\|^2\)

我们试图寻找最小化上式的 \(\b x\),而不局限于上述 \(A\in\s M_{m\times2}(F)\) 的场合。

\(\ip{\b x}{\b y}_n\)\(\s F^n\) 中的标准内积,则有 \(\ip{\b x}{\b y}_n=\b y^*\b x\)(这里把 \(1\times 1\) 矩阵看成标量)。

于是,

\[\ip{\b A\b x}{\b y}_n=\b y^*A\b x=(A^*\b y)^*\b x=\ip{\b x}{A^*\b y}_n \]

定理:\(\rank(A^*A)=\rank(A)\)

因为行数相同,则只需证明二者零空间等维即可。

\(A\b x=\b0\) 则必有 \(A^*A\b x=\b0\);反之,若 \(A^*A\b x=\b0\),则

\[0=\ip{A^*A\b x}{\b x}_m=\b x^*A^*A\b x=\ip{A\b x}{A\b x}_m \]

可知 \(A\b x=\b0\)

\(\s W=\{A\b x\mid\b x\in\s F^n\}\),则 \(\s W\) 是线性空间,\(\b y\) 在其中存在唯一的投影 \(A\b x_0\)。则 \(A\b x_0-\b y\) 与全体 \(A\b x\) 正交,即

\[\ip{A\b x}{A\b x_0-\b y}_m=0 \]

换言之,

\[\ip{\b x}{A^*(A\b x_0-\b y)}_m=0 \]

这必须有

\[A^*(A\b x_0-\b y)=\b0 \\A^*A\b x_0=A^*\b y \]

\(A^*A\) 满秩(这等效于 \(A\) 列满秩)时,则有 \(\b x_0=(A^*A)^{-1}A^*\b y\)

最小二乘法本质:求 \(\b y\) 到矩阵 \(A\) 列空间的投影(以及投影到 \(\b y\) 的范数)。

既然是列空间,那么可以只挑出主元列来张成列空间,此时 \(A\) 必然列满秩。

之后根据性质 \(\ip{A\b x_0-\b y}{A\b x}_n=0\) 对全体 \(\b x\) 均生效作推理即可。


定理:\(\s R(\s T^*)^\perp=\s N(\s T)\)

对于 \(\b x\in\s N(\s T),\b y\in\s F^n\),考虑

\[\ip{\b x}{\s T^*(\b y)}=\ip{\s T(\b x)}{\b y}=\ip{\b0}{\b y}=0 \]

于是 \(\s R(\s T^*)\)\(\s N(\s T)\) 正交。

并且,有

\[\s T^*(\b y)=\sum_{i=1}^n\ovl{\ip{\s T(\b v_i)}{\b y}}\b v_i \]

重排 \(\b v_i\) 使得 \(\s T(\b v_1),\dots,\s T(\b v_m)\) 构成 \(\{\s T(\b v_i)\}\) 的基。则当 \(\b y\) 在它们方向的投影确定后,在其它 \(\s T(\b v_i)\) 方向的投影也随之确定,因此 \(\dim(\s R(\s T^*))=\dim(\s R(\s T))\)。于是 \(\dim(\s R(\s T^*))+\dim(\s N(\s T))=\dim(\s V)\)​,可知二者互为正交补。


最小范数解。寻找方程 \(A\b x=\b b\)​ 的 \(\|\b x\|\)​ 最小解。

定理:最小范数解唯一,且恰为落入 \(\s R(\s L_{A^*})\) 中的那个;即,若 \(\b u\)\(AA^*\b u=\b b\) 的解,则最小范数解 \(\b s=A^*\b u\)。可以证明,这样的 \(\b u\) 必然存在。

\(\s W\)\(A^*\) 的列空间,\(\s W'\)\(A\) 的零空间,则由上述定理,有二者正交。则 \(A\b x=\b b\) 的解 \(\b x\) 可以被唯一拆作 \(\s W\) 中的 \(\b s\)\(\s W'\) 中的 \(\b y\) 之和。而因为 \(A\b y=\b0\),可知 \(A\b s=\b b\),且是唯一最小范数解。

最小范数解的本质,是求仿射空间到原点的最近点(以及该点的范数),和最小二乘法本质对偶。

仿射空间关于零空间滑动。因此找到与零空间正交的那个空间(表示出来就是 \(A^*\) 的列空间),则该正交空间与仿射空间的唯一交点即为最小范数解。

表示一个空间的方式有两种:列空间或零空间。再求一次正交补,则列空间的正交补是伴随矩阵的零空间;零空间的正交补是伴随矩阵的列空间。

VI.IV. Normal and Self-Adjoint Operators

引理:若 \(\s T\) 有特征向量,则 \(\s T^*\) 亦然。

令特征向量 \(\b v\) 对应特征值 \(\lambda\)。则对于一切 \(\b x\),有

\[0=\ip{\b 0}{\b x}=\ip{(\s T-\lambda\s I)(\b v)}{\b x} \\=\ip{\b v}{(\s T-\lambda\s I)^*(\b x)} \\=\ip{\b v}{(\s T^*-\bar\lambda\s I)(\b x)} \]

因此,\(\b v\)\(\s T^*-\bar\lambda\s I\) 的像空间正交,进而其非满秩、存在零空间。该零空间中的 \(\b u\) 即满足 \((\s T^*-\bar\lambda\s I)(\b u)=\b0\)

Schur 定理:若 \(\s T\) 的特征多项式分裂(定义域上包含全体根),则存在单位正交基,在其上 \([\s T]_\beta\) 是上三角矩阵。

考虑归纳。因为 \(\s T\) 有特征值,所以 \(\s T^*\) 也有;令其是单位特征向量 \(\b z\) 和对应特征值 \(\lambda\)。取 \(\s W=\span\{\b v\}\),则声称 \(\s W^\perp\)\(\s T\)-不变子空间。

\(\b y\in\s W^\perp\)\(c\b z\in\s W\),则

\[\ip{\s T(\b y)}{c\b z}=\ip{\b y}{\s T^*(c\b z)}=\ip{\b y}{c\lambda\b z}=0 \]

因此 \(\s W^\perp\)\(\s T\)-不变子空间。由归纳假设,\(\s W^\perp\) 存在单位正交基 \(\beta'\),则在 \(\beta'\) 后面补一个 \(\b z\) 即可。

若存在一组单位正交特征向量基 \(\beta\),则 \([\s T]_\beta\) 是对角矩阵,且 \([\s T^*]_\beta=[\s T]_\beta^*\) 亦是,则 \(\s T\)\(\s T^*\) 交换。称满足 \(\s T\s T^*=\s T^*\s T\) 的线性变换(或矩阵)为 正规(normal)的。

定理:对于正规变换,满足以下性质:

  • \(\|\s T(\b x)\|=\|\s T^*(\b x)\|\)
  • \(\s T-c\s I\) 必亦为正规。
  • \(\b x\)\(\s T\) 对应 \(\lambda\) 的特征向量,则其亦是 \(\s T^*\) 对应 \(\bar\lambda\) 的特征向量。
  • 不等特征值的特征向量彼此正交。

(1) 列出范数定义式即证。

(2) 由 \(\s T\)\(\s T^*\)\(\s I\)\(c\) 所有东西之间都存在交换律可证。

(3) 考虑令 \(\s U=\s T-\lambda\s I\),则

\[0=\|\s U(\b v)\|=\|\s U^*(\b v)\|=\|\s U^*(\b v)-\bar\lambda\b v\| \]

(4) 有

\[\lambda_1\ip{\b x_1}{\b x_2}=\ip{\s T(\b x_1)}{\b x_2} =\ip{\b x_1}{\s T^*(\b x_2)} =\lambda_2\ip{\b x_1}{\b x_2} \]

因为 \(\lambda_1\neq\lambda_2\) 所以只有可能二者正交。

定理:变换是正规的,当且仅当存在单位正交特征向量基。

存在单位正交基时,易知其正规。以下考虑正规的场合。

由代数基本定理,特征多项式在 \(\mathbb C\) 中分裂。因此由 Schur 定理,存在单位正交基 \(\b v_1,\dots,\b v_n\) 使得 \([\s T]_\beta\) 是上三角。

由上三角性,必有 \(\b v_1\) 是特征向量。考虑归纳。

\[\s T(\b v_k)=\sum_{i=1}^kA_{ik}\b v_i \]

同时,对于 \(j<k\)

\[A_{jk}=\ip{\s T(\b v_k)}{\b v_j}=\ip{\b v_k}{\s T^*(\b v_j)}=\lambda_j\ip{\b v_k}{\b v_j}=0 \]

于是仅有 \(A_{kk}\) 非零。

定义:线性变换/矩阵被称作 自伴(self-adjoint)/Hermitian 的,若其伴随等于自身。

定理:自伴线性变换的全体特征值都是实特征值;并且,如果 \(\s V\) 依托实数域定义,则特征多项式在实数域上分裂。

假设 \(\b v\)\(\s T\)\(\lambda\)-特征向量,则因为 \(\s T\) 是正规的,所以其亦是 \(\s T^*=\s T\)\(\bar\lambda\)-特征向量,这意味着 \(\lambda=\bar\lambda\),即 \(\lambda\in\mathbb R\)。特征值全为实数,则特征多项式必是实多项式。

定理:有限维实内积空间上线性算子,其自伴当且仅当存在单位正交特征向量基。【也即,实内积空间下,自伴矩阵与正规矩阵等效】

首先,自伴变换必是正规变换。

其次,若存在单位正交特征向量基 \(\beta\),则 \([\s T]_\beta\) 会是实对角矩阵;则 \([\s T^*]_\beta=[\s T]_\beta^*\),后者因为实对角矩阵的伴随矩阵正是其自身,所以可知:有 \([\s T]_\beta=[\s T^*]_\beta\),也即 \(\s T=\s T^*\)

VI.V. Unitary and Orthogonal Operators and Their Matrices

一些算子有着保范数的性质,也即其满足 \(\|\s T(\b x)\|=\|\b x\|\);在复内积空间上,被称作 单位算子/幺正算子/酉算子(unitary opeator);在实内积空间上即为 正交算子(orthogonal operator)。

定理:以下条件等价:

  • \(\s T^*\s T=\s T\s T^*=\s I\)
  • \(\ip{\s T(\b x)}{\s T(\b y)}=\ip{\b x}{\b y}\)
  • 单位正交基在变换后仍是一组(可以不一样的)单位正交基。
  • 存在一组变换后仍正交归一的单位正交基。
  • 是酉算子。

引理:所有自伴映射中,满足 \(\ip{\b x}{\s T(\b x)}=0\) 对全体 \(\b x\) 均成立的唯一映射是零映射。这是因为自伴映射必存在单位正交特征向量基;如果有至少一个特征向量对应非零特征值,则其违背条件,所以全体特征值均为零,进而为零映射。

\((1)\implies(2)\)\(\ip{\s T(\b x)}{\s T(\b y)}=\ip{\s T^*\s T(\b x)}{\b y}=\ip{\b x}{\b y}\)

\((2)\implies(3)\):因为保内积,所以必然保范数、保正交。

\((3)\implies(4)\):单位正交基必然存在。

\((4)\implies(5)\):因为单位正交基变到单位正交基,所以保范数。

\((5)\implies(1)\)\(\ip{\s T(\b x)}{\s T(\b x)}=\ip{\b x}{\b x}\),则 \(\ip{(\s T^*\s T-\s I)\b x}{\b x}=0\) 对全体 \(\b x\) 均成立,则由引理,\(\s T^*\s T=\s I\)

推论:在实内积空间中,若线性算子存在正交单位特征向量基,其特征值绝对值全为 \(1\),当且仅当其既酉又自伴。

对于正规矩阵 \(A\),存在正交单位特征向量基,将其作为列向量组成 \(Q\) 后,有 \(D=Q^{-1}AQ\),其中 \(D\) 是对角矩阵;因为 \(Q\) 由正交单位列组成,所以 \(Q\) 是酉矩阵,此时称 \(A\) 酉等价(unitary equivalent)/正交等价(orthogonally equivalent)(前者适用于复内积空间,后者适用于实内积空间,此时正规矩阵等效于对称矩阵)于 \(D\)。酉等价的一般形式是 \(A=P^*BP\),其中 \(P\) 是酉矩阵,则有 \(P^*=P^{-1}\)

定理:正规矩阵是酉等价于对角矩阵的矩阵。

首先,正规矩阵必酉等价于对角矩阵;反之,若存在 \(D=P^*AP\),则 \(D^*=P^*A^*P\),有 \(DD^*=D^*D\),于是 \(P^*AA^*P=P^*A^*AP\),因为 \(P\) 可逆所以 \(AA^*=A^*A\)

因此,有 Schur 定理的矩阵等价形式:对于特征多项式分裂的矩阵,

  • 若是实矩阵则正交等价于实上三角矩阵。
  • 若是复矩阵则酉等价于复上三角矩阵。

一个映射(注意不需要是线性变换)\(f:\s V\to\s V\)刚体运动(rigid motion),若其保长度。易知:酉映射是刚体运动。平移(translation)是一类特殊的刚体运动,它很简单,即为 \(\b x\mapsto\b x+\b v_0\)

定理:实内积空间中的任何刚体运动都可以被拆分成一次正规变换 \(\s T\) 和一次平移 \(g\),即 \(f=g\circ\s T\)

\(\s T(\b0)=f(\b x)-f(\b 0)\),下证 \(\s T\) 是酉变换。

\(\s T\) 的性质是 \(\|\s T(\b x)-\s T(\b y)\|=\|\b x-\b y\|\)。取 \(\b y=\b0\) 可知其保范数;两边平方可知 \(\ip{\s T(\b x)}{\s T(\b y)}=\ip{\b x}{\b y}\)。剩下的只需再证明它的确是线性映射即可。


\(\s R^2\)​ 上的正规变换只有旋转和翻转两种。

VI.VI. Orthogonal Projections and the Spectral Theorem

对于 \(\s V=\s W_1\oplus\s W_2\) 的场合,线性算子 \(\s T\) 被称作 沿 \(\s W_2\)\(\s W_1\) 的投影(projection on \(\s W_1\) along \(\s W_2\)),若对于 \(\b x\)\(\s W_1,\s W_2\) 中分解为 \(\b x_1,\b x_2\),并令 \(\s T(\b x)=\b x_1\)。则有 \(\s R(\s T)=\s W_1,\s N(\s T)=\s W_2\)

注意,\(\s T=\s W_1\oplus\s W_2=\s W_1\oplus\s W_3\) 不意味着 \(\s W_2=\s W_3\),这是因为 \(\s W_1,\s W_2\) 不一定要是正交关系。因此,投影函数不只由 \(\s W_1\) 决定。

称一个投影是 正交投影(orthogonal projection),若其零空间与像空间垂直。可知:正交投影由 \(\s W_1\)\(\s W_2\) 中任一唯一确定:得知一个,即可取正交进而得知另一个。

定理:线性算子是投影,当且仅当 \(\s T^2=\s T\);是正交投影,当且仅当它额外满足自伴的条件。

易验证投影确实满足 \(\s T^2=\s T\)。现考虑若满足 \(\s T^2=\s T\),则令 \(\s W_1=\s R(\s T),\s W_2=\s N(\s T)\),则因为 \(\s T^2=\s T\),对于全体 \(\b x\in\s W_1\) 均有 \(\s T(\b x)=\b x\);而有 \(\s W_1\oplus\s W_2=\s V\),因此 \(\s T\) 是投影。

现在其自伴。对于 \(\s T(\b x)\in\s W_1\) 和满足 \(\s T(\b y)=\b0\)\(\b y\in\s W_2\),有

\[\ip{\s T(\b x)}{\b y}=\ip{\b x}{\s T^*(\b y)}=\ip{\b x}{\s T(\b y)}=0 \]

因此 \(\s W_1,\s W_2\) 正交。

此时,取 \(\beta\) 为正交单位基,满足前 \(k\) 个基向量组成 \(\s W_1\) 的基,则

\[[\s T]_\beta=\bmat{I_k&O\\O&O} \]

谱分解定理(The Spectral Theorem):对于正规算子 \(\s T\),令 \(\lambda\) 为其不等特征值构成序列,令 \(\s W_i\) 为与 \(\lambda_i\) 对应的特征空间,令 \(\s T_i\) 为至 \(\s W_i\) 的正交投影,则:

  • \(\s T=\bigoplus\s W_i\)
  • \(\s W_i^\perp=\bigoplus\limits_{j\neq i}\s W_j\)
  • \(\s T_i\s T_j=\delta_{ij}\s T_i=\delta_{ij}\s T_j\)
  • \(\s I=\sum\s T_i\)
  • \(\s T=\sum\lambda_i\s T_i\)

不等特征值全体称作线性变换的 (spectrum)。\(\s I=\sum\s T_i\) 的公式被称作 恒等算子的谱分解(resolution of the identity operator),而 \(\s T=\sum\lambda_i\s T_i\) 则称作 \(\s T\)谱分解(spectrum decomposition)。

\(\beta\)\(\s W_i\) 的单位线性基拼接而成的基,则有

\[[\s T]_\beta=\bmat{\lambda_1I_{m_1}&&&\\&\lambda_2I_{m_2}&&\\&&\ddots&\\&&&\lambda_kI_{m_k}} \]

特别地,

\[\s T^p(\b x)=\sum_{\{i_1,\dots,i_p\}}\lambda_{i_1}\s T_{i_1}\dots\s \lambda_{i_p}T_{i_p}(\b x) \]

而因为 \(\s T_i\s T_j=\delta_{ij}\s T_i=\delta_{ij}\s T_j\),所以上式直接约化为

\[\s T^p(\b x)=\sum_{i=1}^k\lambda_i^p\s T_i(\b x) \]

也即,对于多项式 \(g(x)\),有

\[g(\s T)=\sum g(\lambda)\s T_i \]

于是有推论:复内积空间下,\(\s T\) 正规当且仅当存在多项式 \(g\) 使得 \(\s T^*=g(\s T)\)

首先,若 \(\s T\) 正规,则

\[\s T=\sum\lambda_i\s T_i \\\s T^*=\sum\bar\lambda_i\s T_i^*=\sum\bar\lambda_i\s T_i \]

后者是因为正交投影算子是自伴算子。通过 Lagrange 插值,我们必可以寻找到满足全体 \(g(\lambda_i)=\bar\lambda_i\) 的多项式 \(g\)

反之,若 \(\s T^*=g(\s T)\),则因为 \(\s T\)\(\s T\) 的多项式交换,所以 \(\s T\)\(\s T^*\) 亦交换,则必正规。

另有推论:复内积空间下,酉当且仅当 \(\s T\) 正规,且全体特征值范数均为 \(1\)

\[\s T^*\s T=\sum\bar \lambda_i\s T_i\sum\lambda_j\s T_j \\=\sum\bar \lambda_i\lambda_i\s T_i \\=\sum|\lambda_i|^2\s T_i \]

若全体特征值范数均为 \(1\),该公式退化为恒等算子谱分解;同时因为恒等算子谱分解唯一,也可以推出全体特征值范数均为 \(1\)

还有推论:复内积空间下,若正规,则自伴等效于所有特征根都是实特征根。

自伴则有 \(\lambda_i=\bar\lambda_i\)

最后一个推论:所有 \(\s T_i\) 都可以被写成 \(\s T\) 的多项式。

若考虑 \(\s T_i\),则使用 Lagrange 让 \(g(\lambda_j)=\delta_{ij}\) 即可有 \(\s T_i=g(\s T)\)

posted @ 2024-09-12 19:01  Troverld  阅读(50)  评论(0编辑  收藏  举报