【线性代数】 08 - 线性空间的度量

1. 内积空间

1.1 欧几里得空间

　　线性空间在添加了双线性的运算后，向量之间建立了简单的正交、非正交的关系。数域是最常见的域，它天生就带着度量的使命，所以在数域的线性空间中，我们不能回避向量间的度量。所谓度量就是用一个数表示向量之间的关系，并衍生出长度、距离和角度的概念，而在度量上最“完备”的数域当然是实数域，故这里的长度先限定在实数域上讨论。但其实本篇的推导和结论其实对数域的要求并不高，如果放在更弱一点的代数数域中（至少包含\(\sqrt{2}\)），是同样可以成立的。

　　双线性函数正好是用数量来表示向量的关系，在这里我们还需要对其加一些限制条件。首先我们希望这个度量与向量的顺序无关，所以要求双线性函数是对称的。其次我们准备用二次型表示向量长度，所以还要求它是正定的。为此我们定义实数域上正定的对称双线性函数\(f(\alpha,\beta)\)为向量的内积，简记为\((\alpha,\beta)\)或\(\alpha\cdot\beta\)，易知内积的度量矩阵为正定实对称矩阵。

　　定义了内积的实线性空间叫实内积空间，或者叫欧几里得空间（Euclid），有了内积下面就继续定义长度和距离（式（1））。由于二次型是二次函数，所以定义向量的长度时，需要对其开平方，即\(\alpha\)的长度为\(\sqrt{\alpha\cdot\alpha}\)，简记为\(\left\|\alpha\right\|\)。长度为\(1\)的向量称为单位向量，对任意非零向量\(\alpha\)显然\(\dfrac{\alpha}{\left\|\alpha\right\|}\)是单位向量。而距离自然定义为向量差的长度，记作\(d(\alpha,\beta)\)。你可能注意到，这样定义的内积其实与解析几何中介绍的是有差别的，我们还需要验证这些定义是否符合几何学中的基本关系。

\[\left\|\alpha\right\|=\sqrt{\alpha\cdot\alpha},\quad d(\alpha,\beta)=\left\|\alpha-\beta\right\|\tag{1}\]

\[|\alpha\cdot\beta|\leqslant \left\|\alpha\right\|\cdot\left\|\beta\right\|\tag{2}\]

\[\theta=\arccos{\frac{\alpha\cdot\beta}{\left\|\alpha\right\|\cdot\left\|\beta\right\|}},\quad (0\leqslant\theta\leqslant\pi)\tag{3}\]

　　等式（2）两边同时加上\(\left\|\alpha\right\|^2+\left\|\beta\right\|^2\)，整理后可以得到三角不等式（4），它还有等价形式（5），这个式子保证了距离的概念是合理的。当\(\alpha,\beta\)正交时，（4）式两边取平方即可得勾股定理（6），并且易证等式（6）是\(\alpha,\beta\)正交的充要条件。式（6）还可以推广到两两正交的有限向量组中，请自行论证。

\[\left|\:\left\|\alpha\right\|-\left\|\beta\right\|\:\right|\leqslant\left\|\alpha+\beta\right\|\leqslant\left\|\alpha\right\|+\left\|\beta\right\|\tag{4}\]

\[\left|d(\alpha,\gamma)-d(\beta,\gamma)\right|\leqslant d(\alpha,\beta)\leqslant d(\alpha,\gamma)+d(\beta,\gamma)\tag{5}\]

\[\left\|\alpha\right\|^2+\left\|\beta\right\|^2=\left\|\alpha+\beta\right\|^2\tag{6}\]

1.2 酉空间

　　复数域是实数域的代数闭包，我们希望能把度量的概念推广到复线性空间。但度量首先要求长度、距离这样的概念是非负实数，对称双线性函数不再适用，比如要求\(f(\alpha,\alpha),f(i\alpha,i\alpha)\)都大于\(0\)就是不可能的。要进行概念的推广，就不得不打破双线性函数的束缚，或者说将其也进行推广。

　　对推广后的函数我们有三点需要满足：（1）要能兼容实数域上的内积；（2）长度的概念满足正定性；（3）距离概念还满足三角不等式。先来处理简单的场景，考虑\(f(k\alpha,k\alpha)\)的正定性，如果还是定义成\(f(k\alpha,k\alpha)=k^2f(\alpha,\alpha)\)，在复数域上\(k^2\)并不是正定的。回想到复数共轭的概念，很容易想到将第二个参数变成其共轭，即将\(f(\alpha,k\alpha)\)定义为\(\bar{k}f(\alpha,\alpha)\)，也可以一般性地定义为半线性（式（7））。

\[f(\alpha,k_1\beta_1+k_2\beta_2)=\overline{k_1}f(\alpha,\beta_1)+\overline{k_2}f(\alpha,\beta_2)\tag{7}\]

　　函数在第一个变量上可以继续保持线性函数，为了能体现出函数在实数域上的对称性，式（7）和第一个变量上的线性相结合，便是式（8）的Hermite性。由此我们便有了复数域上的“内积”定义\(f(\alpha,\beta)\)：（1）\(f\)是\(\alpha\)上的线性函数；（2）\(f\)满足Hermite性；（3）\(f\)是正定的。这样的函数被称为复内积，它显然和实内积兼容，所以也可以简称为内积，同样记作\((\alpha,\beta)\)或\(\alpha\cdot\beta\)。定义了内积的复线性空间称为复内积空间或内积空间，也称为酉空间（unitary linear space）。

\[f(\beta,\alpha)=\overline{f(\alpha,\beta)}\tag{8}\]

　　在有限维空间中，选定一组基\(\{\varepsilon_1,\cdots,\varepsilon_n\}\)后，内积也可以由这组基上的度量矩阵（式（9））决定。度量矩阵显然满足\(A'=\overline{A}\)，并且当基通过过渡矩阵转变时，也同样有类似“合同”的关系式（10）。类似于实对称矩阵的可对角化，你也可以验证内积度量矩阵也是可对角化的。

\[f(\alpha,\beta)=XA\overline{Y'},\quad a_{ij}=f(\varepsilon_i,\varepsilon_j)\tag{9}\]

\[B=PA\overline{P'}\tag{10}\]

　　由于内积的正定性，长度\(\left\|\alpha\right\|\)和距离\(d(\alpha,\beta)\)的概念就自然引出了（式（1）），现在还需要证明三角不等式（4）（5），它们依赖于Schwarz-Cauchy不等式（式（2））。在复内积上，式（2）的证明本质和实数域上一样，只是在复数域上形式稍显复杂，其实直接将中轴数\(t=-\dfrac{\alpha\cdot\beta}{\left\|\beta\right\|^2}\)带入\((\alpha+t\beta,\alpha+t\beta)\geqslant 0\)的展开式便可得到，请自行验证。

　　由式（2）自然可以定义角度（式（11）），注意这里的取值范围，它在复线性空间中更合适。定义了角度后，自然地就能引出正交的概念，以及正交向量的勾股定理（式（6）），你可以自己完成这些推导。

\[\theta=\arccos{\frac{|\alpha\cdot\beta|}{\left\|\alpha\right\|\cdot\left\|\beta\right\|}},\quad (0\leqslant\theta\leqslant\frac{\pi}{2})\tag{11}\]

2. 正交性和正交变换

　　上面完成了内积空间的定义，并且看到酉空间对欧几里得空间是完全兼容的，今后的讨论都设定在酉空间中。

2.1 正交基

　　由于内积的度量矩阵可以“合同”对角化，所以内积空间总是存在一组正交基。我们希望在正交基下继续研究空间结构，但没有度量的帮助这一切都无法实现。而现在有了内积的定义，下面就来着手讨论正交关系下的内积空间结构。先来看看正交向量的性质，设\(\alpha_1,\cdots,\alpha_s\)两两正交，如果有\(\sum{k_i\alpha_i}=0\)，该式分别与\(\alpha_j\)求内积得\(k_j(\alpha_j\cdot\alpha_j)=0\)，从而\(k_j=0\)。这就说明了内积空间中，两两正交的向量必然是线性无关的。

　　从而\(n\)实内积空间中最多有\(n\)个正交向量，而且如果有的话它们便是一组基，单位向量组成的正交基又叫标准正交基。标准正交基使得度量有了单位，从而方便了表达。比如由于标准正交基的度量矩阵是\(I\)，向量的内积表达式就只与它们的坐标有关（式（12））。进一步地，设\(\{\eta_1,\eta_2,\cdots,\eta_n\}\)是一组标准正交基，则每个向量的坐标也可以直接由内积表示（式（13））。式（13）也叫向量的Fourier展开，其中坐标也叫Fourier系数。

\[\alpha\cdot\beta=X\overline{Y'}=x_1\overline{y_1}+x_2\overline{y_2}+\cdots+x_n\overline{y_n}\tag{12}\]

\[\alpha=(\alpha\cdot\eta_1)\eta_1+(\alpha\cdot\eta_2)\eta_2+\cdots+(\alpha\cdot\eta_n)\eta_n\tag{13}\]

　　回顾实对称矩阵可合同对角化的证明，整个过程其实就是在寻找正交化基，现在把这个方法整理出来。设\(\{\alpha_1,\alpha_2,\cdots,\alpha_n\}\)是任意一组基，现在来构造一组正交基\(\{\beta_1,\beta_2,\cdots,\beta_n\}\)。构造\(\beta_i\)的过程既要引入向量\(\alpha_i\)，又要和已经构造的\(\beta_j,(j<i)\)正交。模仿对角化的过程，先设\(\beta_1=\alpha_1\)，然后设\(\beta_i=\alpha_i+\sum\limits_{j<i}k_{ij}\beta_j\)。利用正交性可求出\(k_{ij}\)的唯一解，这就得到了正交基（式（14）），这个过程也叫Schmidt正交化。

\[\beta_1=\alpha_1;\quad\beta_i=\alpha_i-\sum_{j=1}^{i-1}{\frac{\alpha_i\cdot\beta_j}{\beta_j\cdot\beta_j}\beta_j}\quad (2\leqslant i\leqslant n)\tag{14}\]

2.2 酉矩阵（正交矩阵）

　　以上正交化过程中，如果选取不同的基\(\{\alpha_1,\alpha_2,\cdots,\alpha_n\}\)，也将得到不同标准正交基。这些标准正交基之间有什么样的关系？设两组基的过渡矩阵为\(P\)，根据两组基的度量矩阵的关系有\(PI\overline{P'}=I\)，为此定义满足\(A\overline{A'}=I\)的方阵为酉矩阵，在实数域上又叫正交矩阵（满足\(AA'=I\)）。酉矩阵有着非常好的性质，首先它的逆矩阵正好就是它的共轭转置矩阵（式（15）），进而可知它的行向量和列向量都是坐标空间中的一组标准正交基。还容易看出，如果\(A,B\)是酉矩阵（正交矩阵），则\(\overline{A'},A^{-1},AB\)都是酉矩阵（正交矩阵）。\(P\overline{P'}=I\)两边取行列式，可知酉矩阵的行列式的模为\(1\)（对正交矩阵则是\(|P|=\pm 1\)）。

\[A\overline{A'}=I\quad\Leftrightarrow\quad A^{-1}=\overline{A'}\quad\Leftrightarrow\quad \overline{A'}A=I\tag{15}\]

　　式（14）可以整理为如（16）的关系式，这个式子表示了两组基的过渡矩阵。考虑到可逆矩阵\(A\)的\(n\)行其实就是坐标空间的一组基，因此\(A\)可以表示为\(TB\)，其中\(B\)为行向量互相正交的矩阵。将\(B\)正交化为\(P_1\)，系数转移到\(T\)上得到\(T_1\)，于是就有\(A=T_1P_1\)。在\(A\)的列向量上讨论可以得到类似的结论，总结为式（17），就是说任何可逆方阵\(A\)可以分解为一个对角为正数的下三角矩阵\(T_1\)和一个酉矩阵\(P_1\)的乘积，也可以分解为一个酉矩阵\(P_2\)和一个对角为正数的上三角矩阵\(T_2\)的乘积。容易验证，这样的分解还是唯一的。

\[\begin{bmatrix}\alpha_1\\\alpha_2\\\vdots\\\alpha_n\end{bmatrix}=T\begin{bmatrix}\beta_1\\\beta_2\\\vdots\\\beta_n\end{bmatrix},\quad T=\begin{bmatrix}1&0&\cdots&0\\\frac{\alpha_2\cdot\beta_1}{\beta_1\cdot\beta_1}&1&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\\frac{\alpha_n\cdot\beta_1}{\beta_1\cdot\beta_1}&\frac{\alpha_n\cdot\beta_2}{\beta_2\cdot\beta_2}&\cdots&1\end{bmatrix}\tag{16}\]

\[A=T_1P_1=P_2T_2\tag{17}\]

2.3 正交投影

　　由于正定性，内积在任何子空间上\(W\)都是非退化的，类似上一篇的结论可知\(V=W\oplus W^{\perp}\)。更一般地，设\(V=W_1\oplus\cdots\oplus W_s\)，将任何向量\(\alpha\)映射到\(W_i\)中的分量\(\alpha_i\)的线性变换\(\mathscr{P}_i\)，称为正交投影，\(\alpha_i\)也称为\(\alpha\)的正交投影。在几何空间中，正交意味着最短距离，这个结论在内积空间中也同样成立。取\(W_i\)中的任意向量\(\beta\)，由于\((\alpha-\alpha_i)\perp(\beta-\alpha_i)\)，通过式（18）的推导便有式（19）成立，当且仅当\(\beta=\alpha_i\)时等号成立，结论得证。

\[\left\|\alpha-\beta\right\|^2=\left\|(\alpha-\alpha_i)-(\beta-\alpha_i)\right\|^2=\left\|\alpha-\alpha_i\right\|^2+\left\|\beta-\alpha_i\right\|^2\tag{18}\]

\[\left\|\alpha-\beta\right\|\geqslant\left\|\alpha-\alpha_i\right\|,\quad(\beta,\alpha_i\in W_i)\tag{19}\]

　　正交投影的最短距离原理可以用于数据的逼近，也就是说\(\alpha_i\)在\(W_i\)中对\(\alpha\)的最佳逼近元，现在来看一个应用。比如我们事先知道或假定变量\(y\)是向量\([x_1,\cdots,x_n]\)的线性函数\(y=\sum{k_ix_i}\)，为了确定系数\(k_i\)测得了\(m\)组样本\(\{y_j,x_{1j},\cdots,x_{nj}\}\)。考虑到测量误差，样本数\(m\)一般是要大于\(n\)的，但这样就可能导致方程组（20）可能无解。

\[\beta=k_1\alpha_1+k_2\alpha_2+\cdots+k_n\alpha_n,\quad \beta=\begin{bmatrix}y_1\\\vdots\\y_m\end{bmatrix},\:\alpha_i=\begin{bmatrix}x_{1i}\\\vdots\\x_{mi}\end{bmatrix}\tag{20}\]

　　\(\beta\)不一定能由\(\alpha_i\)线性表出，那只好取合适的\(k_i\)使得\(d(\beta,\sum{k_i\alpha_i})\)尽量小。利用正交投影的最短距离原理，即要求\(\beta\)在\(\left<\alpha_1,\cdots,\alpha_n\right>\)上的正交投影。该条件等价于\((\beta-\sum{k_i\alpha_i})\cdot\alpha_j=0\)，用矩阵表示就是式（21）。容易论证该方程有解，这个方法就是最小二乘法，得到的解也称为最小二乘解。

\[\overline{A'}AX=\overline{A'}\beta,\quad A=[\alpha_1,\cdots,\alpha_n],\:X=[k_1,\cdots,k_n]'\tag{21}\]

2.4 酉变换（正交变换）

　　线性变换一直是我们研究线性空间结构的重要方法，现在就来看看引入度量的限制后，空间变换又体现出什么特性。其实更一般地，我们不在线性变换的基础上作度量的限制，而是先直接研究度量限制下的映射。为此定义保持内积不变的映射为保距映射（式（22）），首先保距映射显然保持向量的长度、距离和角度不变，这样的映射很有应用价值。接下来你容易验证式（23）成立，从而保距映射必定是线性映射。

\[\varphi:V\mapsto V':\quad\varphi(\alpha)\cdot\varphi(\beta)=\alpha\cdot\beta,\quad\forall\alpha,\beta\in V\tag{22}\]

\[\left\|\varphi(\alpha+\beta)-\varphi(\alpha)-\varphi(\beta)\right\|^2=0;\quad\left\|\varphi(k\alpha)-k\varphi(\alpha)\right\|^2=0\tag{23}\]

　　最后使用反证法，容易知道保距映射是单射，对于有限维空间它显然是双射，对无限维空间还需要求映射是满射。有双射保距映射的内积空间称为是保距同构的，也记作\(V\cong V'\)。保距同构的有限维内积线性空间的维数必然相同，反之对维数相同的两个内积线性空间，分别取它们的一组标准正交基作为映射的像和原像。容易验证映射是保距映射，从而有限维内积线性空间保距同构的充要条件是：它们的维数相同。

　　当保距变换作用于空间自身时，自然就是一种特殊的线性变换\(\mathscr{A}\)，它被称为酉变换（实数域上又叫正交变换）。对有限维内积线性空间，线性变换是酉变换的充要条件是：一组标准正交基被变换为另一组标准正交基，即线性变换的矩阵\(A\)是酉矩阵。酉变换是比可逆线性变换条件更强的变换，保距性使得它更具有使用价值，后面我们会继续讨论酉变换下的空间结构。

　　由于正交矩阵的行列式为\(\pm1\)，为此把正交变换分为两类，第一类的行列式为\(1\)，也叫旋转，这个概念来自于几何空间。第二类的行列式\(-1\)，设\(\mathscr{P}\)是到某个一维子空间的正交投影，则易证\(\mathscr{I}-2\mathscr{P}\)是第二类的，它被称为镜面反射。其实还容易证明，任何一个第二类的正交变换，都是一个旋转叠加上奇数个镜面反射得来。

　　对于线性变换，最重要的就是研究它的不变子空间的分割，而酉变换的保距性为我们的研究提供的很好的工具。设\(W\)是\(V\)的不变子空间，由于\(V=W\oplus W^{\perp}\)，我们来考察\(W^{\perp}\)。设\(\alpha\in W,\beta\in W^{\perp}\)，由于\(\mathscr{A}\)是双射，则存在\(\alpha=\mathscr{A}\alpha'\)，从而有式（24）的推导。也就是说\(\mathscr{A}\beta\in W^{\perp}\)，所以\(W^{\perp}\)也是\(\mathscr{A}\)的不变子空间，这样\(W\oplus W^{\perp}\)就是\(V\)的一个不变子空间分割。

\[\mathscr{A}\beta\cdot\alpha=\mathscr{A}\beta\cdot\mathscr{A}\alpha'=\beta\cdot\alpha'=0\tag{24}\]

　　设\(\mathscr{A}\)有特征值\(\lambda\)及其特征向量\(\eta\)，由式（25）的推导可知\(|\lambda|=1\)。在复数域中，特征值总是存在的，设\(W=\left<\eta\right>\)，则由刚才的结论知\(\mathscr{A}|_{W^{\perp}}\)仍然是正交变换。使用归纳法可知\(V\)有不变子空间分割\(\left<\eta_1\right>\oplus\cdots\oplus\left<\eta_n\right>\)，其中\(\mathscr{A}\eta_i=\lambda_i\eta_i\)，而特征值\(\lambda_i\)的模都为\(1\)。这就是说酉变换的度量矩阵相似于一个对角矩阵，特别地，酉矩阵也可以对角化。酉矩阵是酉变换在一组标准正交基下的度量矩阵，对角化后的一组基\(\{\eta_1,\cdots,\eta_n\}\)是正交的且很容易单位化，故酉矩阵的对角化时的过渡矩阵也可以是酉矩阵。换句话说，任何对任何酉矩阵\(A\)，总存在酉矩阵\(P\)使得式（26）成立，其中\(\lambda_i\)是\(A\)的所有特征值。

\[\eta\cdot\eta=\mathscr{A}\eta\cdot\mathscr{A}\eta=\lambda\eta\cdot\lambda\eta=|\lambda|^2(\eta\cdot\eta)\tag{25}\]

\[PAP^{-1}=\text{diag}\,\{\lambda_1,\lambda_2,\cdots,\lambda_n\}\tag{26}\]

　　上面的讨论中，我们充分借助了变换在内积上形式特点，讨论了不变子空间的分割，并且借助于正交性，将相似限定在标准正交基上。由于酉矩阵同时充当了相似和合同的过渡矩阵，这还为两类问题找到了一个连接的通道。沿着这个思路，下面将继续使用内积来讨论线性变换，并得到在标准正交基下的不变子空间分割。

posted on 2016-01-03 14:15 卞爱华阅读(3146) 评论(2) 编辑收藏举报

刷新页面返回顶部

万物皆数