【线性代数】 08 - 线性空间的度量
1. 内积空间
1.1 欧几里得空间
线性空间在添加了双线性的运算后,向量之间建立了简单的正交、非正交的关系。数域是最常见的域,它天生就带着度量的使命,所以在数域的线性空间中,我们不能回避向量间的度量。所谓度量就是用一个数表示向量之间的关系,并衍生出长度、距离和角度的概念,而在度量上最“完备”的数域当然是实数域,故这里的长度先限定在实数域上讨论。但其实本篇的推导和结论其实对数域的要求并不高,如果放在更弱一点的代数数域中(至少包含\(\sqrt{2}\)),是同样可以成立的。
双线性函数正好是用数量来表示向量的关系,在这里我们还需要对其加一些限制条件。首先我们希望这个度量与向量的顺序无关,所以要求双线性函数是对称的。其次我们准备用二次型表示向量长度,所以还要求它是正定的。为此我们定义实数域上正定的对称双线性函数\(f(\alpha,\beta)\)为向量的内积,简记为\((\alpha,\beta)\)或\(\alpha\cdot\beta\),易知内积的度量矩阵为正定实对称矩阵。
定义了内积的实线性空间叫实内积空间,或者叫欧几里得空间(Euclid),有了内积下面就继续定义长度和距离(式(1))。由于二次型是二次函数,所以定义向量的长度时,需要对其开平方,即\(\alpha\)的长度为\(\sqrt{\alpha\cdot\alpha}\),简记为\(\left\|\alpha\right\|\)。长度为\(1\)的向量称为单位向量,对任意非零向量\(\alpha\)显然\(\dfrac{\alpha}{\left\|\alpha\right\|}\)是单位向量。而距离自然定义为向量差的长度,记作\(d(\alpha,\beta)\)。你可能注意到,这样定义的内积其实与解析几何中介绍的是有差别的,我们还需要验证这些定义是否符合几何学中的基本关系。
\[\left\|\alpha\right\|=\sqrt{\alpha\cdot\alpha},\quad d(\alpha,\beta)=\left\|\alpha-\beta\right\|\tag{1}\]
内积作为向量间关系,除了长度之外应该还有角度的性质,比如前面的正交性。考察等式\(\left\|t\alpha-\beta\right\|\geqslant 0\)并将其展开,得到不等式\(\left\|\alpha\right\|^2t^2-2(\alpha\cdot\beta)t+\left\|\beta\right\|^2\geqslant 0\)。该式成立的充要条件是判别式非负,等号成立的条件是\(\alpha,\beta\)线性相关。整理判别式即有Schwarz-Cauchy不等式(2),有了这个不等式我们就能方便地定义向量的夹角了(式(3))。
\[|\alpha\cdot\beta|\leqslant \left\|\alpha\right\|\cdot\left\|\beta\right\|\tag{2}\]
\[\theta=\arccos{\frac{\alpha\cdot\beta}{\left\|\alpha\right\|\cdot\left\|\beta\right\|}},\quad (0\leqslant\theta\leqslant\pi)\tag{3}\]
等式(2)两边同时加上\(\left\|\alpha\right\|^2+\left\|\beta\right\|^2\),整理后可以得到三角不等式(4),它还有等价形式(5),这个式子保证了距离的概念是合理的。 当\(\alpha,\beta\)正交时,(4)式两边取平方即可得勾股定理(6),并且易证等式(6)是\(\alpha,\beta\)正交的充要条件。式(6)还可以推广到两两正交的有限向量组中,请自行论证。
\[\left|\:\left\|\alpha\right\|-\left\|\beta\right\|\:\right|\leqslant\left\|\alpha+\beta\right\|\leqslant\left\|\alpha\right\|+\left\|\beta\right\|\tag{4}\]
\[\left|d(\alpha,\gamma)-d(\beta,\gamma)\right|\leqslant d(\alpha,\beta)\leqslant d(\alpha,\gamma)+d(\beta,\gamma)\tag{5}\]
\[\left\|\alpha\right\|^2+\left\|\beta\right\|^2=\left\|\alpha+\beta\right\|^2\tag{6}\]
1.2 酉空间
复数域是实数域的代数闭包,我们希望能把度量的概念推广到复线性空间。但度量首先要求长度、距离这样的概念是非负实数,对称双线性函数不再适用,比如要求\(f(\alpha,\alpha),f(i\alpha,i\alpha)\)都大于\(0\)就是不可能的。要进行概念的推广,就不得不打破双线性函数的束缚,或者说将其也进行推广。
对推广后的函数我们有三点需要满足:(1)要能兼容实数域上的内积;(2)长度的概念满足正定性;(3)距离概念还满足三角不等式。先来处理简单的场景,考虑\(f(k\alpha,k\alpha)\)的正定性,如果还是定义成\(f(k\alpha,k\alpha)=k^2f(\alpha,\alpha)\),在复数域上\(k^2\)并不是正定的。回想到复数共轭的概念,很容易想到将第二个参数变成其共轭,即将\(f(\alpha,k\alpha)\)定义为\(\bar{k}f(\alpha,\alpha)\),也可以一般性地定义为半线性(式(7))。
\[f(\alpha,k_1\beta_1+k_2\beta_2)=\overline{k_1}f(\alpha,\beta_1)+\overline{k_2}f(\alpha,\beta_2)\tag{7}\]
函数在第一个变量上可以继续保持线性函数,为了能体现出函数在实数域上的对称性,式(7)和第一个变量上的线性相结合,便是式(8)的Hermite性。由此我们便有了复数域上的“内积”定义\(f(\alpha,\beta)\):(1)\(f\)是\(\alpha\)上的线性函数;(2)\(f\)满足Hermite性;(3)\(f\)是正定的。这样的函数被称为复内积,它显然和实内积兼容,所以也可以简称为内积,同样记作\((\alpha,\beta)\)或\(\alpha\cdot\beta\)。定义了内积的复线性空间称为复内积空间或内积空间,也称为酉空间(unitary linear space)。
\[f(\beta,\alpha)=\overline{f(\alpha,\beta)}\tag{8}\]
在有限维空间中,选定一组基\(\{\varepsilon_1,\cdots,\varepsilon_n\}\)后,内积也可以由这组基上的度量矩阵(式(9))决定。度量矩阵显然满足\(A'=\overline{A}\),并且当基通过过渡矩阵转变时,也同样有类似“合同”的关系式(10)。类似于实对称矩阵的可对角化,你也可以验证内积度量矩阵也是可对角化的。
\[f(\alpha,\beta)=XA\overline{Y'},\quad a_{ij}=f(\varepsilon_i,\varepsilon_j)\tag{9}\]
\[B=PA\overline{P'}\tag{10}\]
由于内积的正定性,长度\(\left\|\alpha\right\|\)和距离\(d(\alpha,\beta)\)的概念就自然引出了(式(1)),现在还需要证明三角不等式(4)(5),它们依赖于Schwarz-Cauchy不等式(式(2))。在复内积上,式(2)的证明本质和实数域上一样,只是在复数域上形式稍显复杂,其实直接将中轴数\(t=-\dfrac{\alpha\cdot\beta}{\left\|\beta\right\|^2}\)带入\((\alpha+t\beta,\alpha+t\beta)\geqslant 0\)的展开式便可得到,请自行验证。
由式(2)自然可以定义角度(式(11)),注意这里的取值范围,它在复线性空间中更合适。定义了角度后,自然地就能引出正交的概念,以及正交向量的勾股定理(式(6)),你可以自己完成这些推导。
\[\theta=\arccos{\frac{|\alpha\cdot\beta|}{\left\|\alpha\right\|\cdot\left\|\beta\right\|}},\quad (0\leqslant\theta\leqslant\frac{\pi}{2})\tag{11}\]
2. 正交性和正交变换
上面完成了内积空间的定义,并且看到酉空间对欧几里得空间是完全兼容的,今后的讨论都设定在酉空间中。
2.1 正交基
由于内积的度量矩阵可以“合同”对角化,所以内积空间总是存在一组正交基。我们希望在正交基下继续研究空间结构,但没有度量的帮助这一切都无法实现。而现在有了内积的定义,下面就来着手讨论正交关系下的内积空间结构。先来看看正交向量的性质,设\(\alpha_1,\cdots,\alpha_s\)两两正交,如果有\(\sum{k_i\alpha_i}=0\),该式分别与\(\alpha_j\)求内积得\(k_j(\alpha_j\cdot\alpha_j)=0\),从而\(k_j=0\)。这就说明了内积空间中,两两正交的向量必然是线性无关的。
从而\(n\)实内积空间中最多有\(n\)个正交向量,而且如果有的话它们便是一组基,单位向量组成的正交基又叫标准正交基。标准正交基使得度量有了单位,从而方便了表达。比如由于标准正交基的度量矩阵是\(I\),向量的内积表达式就只与它们的坐标有关(式(12))。进一步地,设\(\{\eta_1,\eta_2,\cdots,\eta_n\}\)是一组标准正交基,则每个向量的坐标也可以直接由内积表示(式(13))。式(13)也叫向量的Fourier展开,其中坐标也叫Fourier系数。
\[\alpha\cdot\beta=X\overline{Y'}=x_1\overline{y_1}+x_2\overline{y_2}+\cdots+x_n\overline{y_n}\tag{12}\]
\[\alpha=(\alpha\cdot\eta_1)\eta_1+(\alpha\cdot\eta_2)\eta_2+\cdots+(\alpha\cdot\eta_n)\eta_n\tag{13}\]
回顾实对称矩阵可合同对角化的证明,整个过程其实就是在寻找正交化基,现在把这个方法整理出来。设\(\{\alpha_1,\alpha_2,\cdots,\alpha_n\}\)是任意一组基,现在来构造一组正交基\(\{\beta_1,\beta_2,\cdots,\beta_n\}\)。构造\(\beta_i\)的过程既要引入向量\(\alpha_i\),又要和已经构造的\(\beta_j,(j<i)\)正交。模仿对角化的过程,先设\(\beta_1=\alpha_1\),然后设\(\beta_i=\alpha_i+\sum\limits_{j<i}k_{ij}\beta_j\)。利用正交性可求出\(k_{ij}\)的唯一解,这就得到了正交基(式(14)),这个过程也叫Schmidt正交化。
\[\beta_1=\alpha_1;\quad\beta_i=\alpha_i-\sum_{j=1}^{i-1}{\frac{\alpha_i\cdot\beta_j}{\beta_j\cdot\beta_j}\beta_j}\quad (2\leqslant i\leqslant n)\tag{14}\]
2.2 酉矩阵(正交矩阵)
以上正交化过程中,如果选取不同的基\(\{\alpha_1,\alpha_2,\cdots,\alpha_n\}\),也将得到不同标准正交基。这些标准正交基之间有什么样的关系?设两组基的过渡矩阵为\(P\),根据两组基的度量矩阵的关系有\(PI\overline{P'}=I\),为此定义满足\(A\overline{A'}=I\)的方阵为酉矩阵,在实数域上又叫正交矩阵(满足\(AA'=I\))。酉矩阵有着非常好的性质,首先它的逆矩阵正好就是它的共轭转置矩阵(式(15)),进而可知它的行向量和列向量都是坐标空间中的一组标准正交基。还容易看出,如果\(A,B\)是酉矩阵(正交矩阵),则\(\overline{A'},A^{-1},AB\)都是酉矩阵(正交矩阵)。\(P\overline{P'}=I\)两边取行列式,可知酉矩阵的行列式的模为\(1\)(对正交矩阵则是\(|P|=\pm 1\))。
\[A\overline{A'}=I\quad\Leftrightarrow\quad A^{-1}=\overline{A'}\quad\Leftrightarrow\quad \overline{A'}A=I\tag{15}\]
式(14)可以整理为如(16)的关系式,这个式子表示了两组基的过渡矩阵。考虑到可逆矩阵\(A\)的\(n\)行其实就是坐标空间的一组基,因此\(A\)可以表示为\(TB\),其中\(B\)为行向量互相正交的矩阵。将\(B\)正交化为\(P_1\),系数转移到\(T\)上得到\(T_1\),于是就有\(A=T_1P_1\)。在\(A\)的列向量上讨论可以得到类似的结论,总结为式(17),就是说任何可逆方阵\(A\)可以分解为一个对角为正数的下三角矩阵\(T_1\)和一个酉矩阵\(P_1\)的乘积,也可以分解为一个酉矩阵\(P_2\)和一个对角为正数的上三角矩阵\(T_2\)的乘积。容易验证,这样的分解还是唯一的。
\[\begin{bmatrix}\alpha_1\\\alpha_2\\\vdots\\\alpha_n\end{bmatrix}=T\begin{bmatrix}\beta_1\\\beta_2\\\vdots\\\beta_n\end{bmatrix},\quad T=\begin{bmatrix}1&0&\cdots&0\\\frac{\alpha_2\cdot\beta_1}{\beta_1\cdot\beta_1}&1&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\\frac{\alpha_n\cdot\beta_1}{\beta_1\cdot\beta_1}&\frac{\alpha_n\cdot\beta_2}{\beta_2\cdot\beta_2}&\cdots&1\end{bmatrix}\tag{16}\]
\[A=T_1P_1=P_2T_2\tag{17}\]
2.3 正交投影
由于正定性,内积在任何子空间上\(W\)都是非退化的,类似上一篇的结论可知\(V=W\oplus W^{\perp}\)。更一般地,设\(V=W_1\oplus\cdots\oplus W_s\),将任何向量\(\alpha\)映射到\(W_i\)中的分量\(\alpha_i\)的线性变换\(\mathscr{P}_i\),称为正交投影,\(\alpha_i\)也称为\(\alpha\)的正交投影。在几何空间中,正交意味着最短距离,这个结论在内积空间中也同样成立。取\(W_i\)中的任意向量\(\beta\),由于\((\alpha-\alpha_i)\perp(\beta-\alpha_i)\),通过式(18)的推导便有式(19)成立,当且仅当\(\beta=\alpha_i\)时等号成立,结论得证。
\[\left\|\alpha-\beta\right\|^2=\left\|(\alpha-\alpha_i)-(\beta-\alpha_i)\right\|^2=\left\|\alpha-\alpha_i\right\|^2+\left\|\beta-\alpha_i\right\|^2\tag{18}\]
\[\left\|\alpha-\beta\right\|\geqslant\left\|\alpha-\alpha_i\right\|,\quad(\beta,\alpha_i\in W_i)\tag{19}\]
正交投影的最短距离原理可以用于数据的逼近,也就是说\(\alpha_i\)在\(W_i\)中对\(\alpha\)的最佳逼近元,现在来看一个应用。比如我们事先知道或假定变量\(y\)是向量\([x_1,\cdots,x_n]\)的线性函数\(y=\sum{k_ix_i}\),为了确定系数\(k_i\)测得了\(m\)组样本\(\{y_j,x_{1j},\cdots,x_{nj}\}\)。考虑到测量误差,样本数\(m\)一般是要大于\(n\)的,但这样就可能导致方程组(20)可能无解。
\[\beta=k_1\alpha_1+k_2\alpha_2+\cdots+k_n\alpha_n,\quad \beta=\begin{bmatrix}y_1\\\vdots\\y_m\end{bmatrix},\:\alpha_i=\begin{bmatrix}x_{1i}\\\vdots\\x_{mi}\end{bmatrix}\tag{20}\]
\(\beta\)不一定能由\(\alpha_i\)线性表出,那只好取合适的\(k_i\)使得\(d(\beta,\sum{k_i\alpha_i})\)尽量小。利用正交投影的最短距离原理,即要求\(\beta\)在\(\left<\alpha_1,\cdots,\alpha_n\right>\)上的正交投影。该条件等价于\((\beta-\sum{k_i\alpha_i})\cdot\alpha_j=0\),用矩阵表示就是式(21)。容易论证该方程有解,这个方法就是最小二乘法,得到的解也称为最小二乘解。
\[\overline{A'}AX=\overline{A'}\beta,\quad A=[\alpha_1,\cdots,\alpha_n],\:X=[k_1,\cdots,k_n]'\tag{21}\]
2.4 酉变换(正交变换)
线性变换一直是我们研究线性空间结构的重要方法,现在就来看看引入度量的限制后,空间变换又体现出什么特性。其实更一般地,我们不在线性变换的基础上作度量的限制,而是先直接研究度量限制下的映射。为此定义保持内积不变的映射为保距映射(式(22)),首先保距映射显然保持向量的长度、距离和角度不变,这样的映射很有应用价值。接下来你容易验证式(23)成立,从而保距映射必定是线性映射。
\[\varphi:V\mapsto V':\quad\varphi(\alpha)\cdot\varphi(\beta)=\alpha\cdot\beta,\quad\forall\alpha,\beta\in V\tag{22}\]
\[\left\|\varphi(\alpha+\beta)-\varphi(\alpha)-\varphi(\beta)\right\|^2=0;\quad\left\|\varphi(k\alpha)-k\varphi(\alpha)\right\|^2=0\tag{23}\]
最后使用反证法,容易知道保距映射是单射,对于有限维空间它显然是双射,对无限维空间还需要求映射是满射。有双射保距映射的内积空间称为是保距同构的,也记作\(V\cong V'\)。保距同构的有限维内积线性空间的维数必然相同,反之对维数相同的两个内积线性空间,分别取它们的一组标准正交基作为映射的像和原像。容易验证映射是保距映射,从而有限维内积线性空间保距同构的充要条件是:它们的维数相同。
当保距变换作用于空间自身时,自然就是一种特殊的线性变换\(\mathscr{A}\),它被称为酉变换(实数域上又叫正交变换)。对有限维内积线性空间,线性变换是酉变换的充要条件是:一组标准正交基被变换为另一组标准正交基,即线性变换的矩阵\(A\)是酉矩阵。酉变换是比可逆线性变换条件更强的变换,保距性使得它更具有使用价值,后面我们会继续讨论酉变换下的空间结构。
由于正交矩阵的行列式为\(\pm1\),为此把正交变换分为两类,第一类的行列式为\(1\),也叫旋转,这个概念来自于几何空间。第二类的行列式\(-1\),设\(\mathscr{P}\)是到某个一维子空间的正交投影,则易证\(\mathscr{I}-2\mathscr{P}\)是第二类的,它被称为镜面反射。其实还容易证明,任何一个第二类的正交变换,都是一个旋转叠加上奇数个镜面反射得来。
对于线性变换,最重要的就是研究它的不变子空间的分割,而酉变换的保距性为我们的研究提供的很好的工具。设\(W\)是\(V\)的不变子空间,由于\(V=W\oplus W^{\perp}\),我们来考察\(W^{\perp}\)。设\(\alpha\in W,\beta\in W^{\perp}\),由于\(\mathscr{A}\)是双射,则存在\(\alpha=\mathscr{A}\alpha'\),从而有式(24)的推导。也就是说\(\mathscr{A}\beta\in W^{\perp}\),所以\(W^{\perp}\)也是\(\mathscr{A}\)的不变子空间,这样\(W\oplus W^{\perp}\)就是\(V\)的一个不变子空间分割。
\[\mathscr{A}\beta\cdot\alpha=\mathscr{A}\beta\cdot\mathscr{A}\alpha'=\beta\cdot\alpha'=0\tag{24}\]
设\(\mathscr{A}\)有特征值\(\lambda\)及其特征向量\(\eta\),由式(25)的推导可知\(|\lambda|=1\)。在复数域中,特征值总是存在的,设\(W=\left<\eta\right>\),则由刚才的结论知\(\mathscr{A}|_{W^{\perp}}\)仍然是正交变换。使用归纳法可知\(V\)有不变子空间分割\(\left<\eta_1\right>\oplus\cdots\oplus\left<\eta_n\right>\),其中\(\mathscr{A}\eta_i=\lambda_i\eta_i\),而特征值\(\lambda_i\)的模都为\(1\)。这就是说酉变换的度量矩阵相似于一个对角矩阵,特别地,酉矩阵也可以对角化。酉矩阵是酉变换在一组标准正交基下的度量矩阵,对角化后的一组基\(\{\eta_1,\cdots,\eta_n\}\)是正交的且很容易单位化,故酉矩阵的对角化时的过渡矩阵也可以是酉矩阵。换句话说,任何对任何酉矩阵\(A\),总存在酉矩阵\(P\)使得式(26)成立,其中\(\lambda_i\)是\(A\)的所有特征值。
\[\eta\cdot\eta=\mathscr{A}\eta\cdot\mathscr{A}\eta=\lambda\eta\cdot\lambda\eta=|\lambda|^2(\eta\cdot\eta)\tag{25}\]
\[PAP^{-1}=\text{diag}\,\{\lambda_1,\lambda_2,\cdots,\lambda_n\}\tag{26}\]
上面的讨论中,我们充分借助了变换在内积上形式特点,讨论了不变子空间的分割,并且借助于正交性,将相似限定在标准正交基上。由于酉矩阵同时充当了相似和合同的过渡矩阵,这还为两类问题找到了一个连接的通道。沿着这个思路,下面将继续使用内积来讨论线性变换,并得到在标准正交基下的不变子空间分割。