【线性代数】 08 - 线性空间的度量

1. 内积空间

1.1 欧几里得空间

  线性空间在添加了双线性的运算后,向量之间建立了简单的正交、非正交的关系。数域是最常见的域,它天生就带着度量的使命,所以在数域的线性空间中,我们不能回避向量间的度量。所谓度量就是用一个数表示向量之间的关系,并衍生出长度、距离和角度的概念,而在度量上最“完备”的数域当然是实数域,故这里的长度先限定在实数域上讨论。但其实本篇的推导和结论其实对数域的要求并不高,如果放在更弱一点的代数数域中(至少包含2),是同样可以成立的。

  双线性函数正好是用数量来表示向量的关系,在这里我们还需要对其加一些限制条件。首先我们希望这个度量与向量的顺序无关,所以要求双线性函数是对称的。其次我们准备用二次型表示向量长度,所以还要求它是正定的。为此我们定义实数域上正定的对称双线性函数f(α,β)为向量的内积,简记为(α,β)αβ,易知内积的度量矩阵为正定实对称矩阵。

  定义了内积的实线性空间叫实内积空间,或者叫欧几里得空间(Euclid),有了内积下面就继续定义长度和距离(式(1))。由于二次型是二次函数,所以定义向量的长度时,需要对其开平方,即α的长度为αα,简记为α。长度为1的向量称为单位向量,对任意非零向量α显然αα是单位向量。而距离自然定义为向量差的长度,记作d(α,β)。你可能注意到,这样定义的内积其实与解析几何中介绍的是有差别的,我们还需要验证这些定义是否符合几何学中的基本关系。

(1)α=αα,d(α,β)=αβ

  内积作为向量间关系,除了长度之外应该还有角度的性质,比如前面的正交性。考察等式tαβ0并将其展开,得到不等式α2t22(αβ)t+β20。该式成立的充要条件是判别式非负,等号成立的条件是α,β线性相关。整理判别式即有Schwarz-Cauchy不等式(2),有了这个不等式我们就能方便地定义向量的夹角了(式(3))。

(2)|αβ|αβ

(3)θ=arccosαβαβ,(0θπ)

  等式(2)两边同时加上α2+β2,整理后可以得到三角不等式(4),它还有等价形式(5),这个式子保证了距离的概念是合理的。 当α,β正交时,(4)式两边取平方即可得勾股定理(6),并且易证等式(6)是α,β正交的充要条件。式(6)还可以推广到两两正交的有限向量组中,请自行论证。

(4)|αβ|α+βα+β

(5)|d(α,γ)d(β,γ)|d(α,β)d(α,γ)+d(β,γ)

(6)α2+β2=α+β2

1.2 酉空间

  复数域是实数域的代数闭包,我们希望能把度量的概念推广到复线性空间。但度量首先要求长度、距离这样的概念是非负实数,对称双线性函数不再适用,比如要求f(α,α),f(iα,iα)都大于0就是不可能的。要进行概念的推广,就不得不打破双线性函数的束缚,或者说将其也进行推广。

  对推广后的函数我们有三点需要满足:(1)要能兼容实数域上的内积;(2)长度的概念满足正定性;(3)距离概念还满足三角不等式。先来处理简单的场景,考虑f(kα,kα)的正定性,如果还是定义成f(kα,kα)=k2f(α,α),在复数域上k2并不是正定的。回想到复数共轭的概念,很容易想到将第二个参数变成其共轭,即将f(α,kα)定义为k¯f(α,α),也可以一般性地定义为半线性(式(7))。

(7)f(α,k1β1+k2β2)=k1f(α,β1)+k2f(α,β2)

  函数在第一个变量上可以继续保持线性函数,为了能体现出函数在实数域上的对称性,式(7)和第一个变量上的线性相结合,便是式(8)的Hermite性。由此我们便有了复数域上的“内积”定义f(α,β):(1)fα上的线性函数;(2)f满足Hermite性;(3)f是正定的。这样的函数被称为复内积,它显然和实内积兼容,所以也可以简称为内积,同样记作(α,β)αβ。定义了内积的复线性空间称为复内积空间或内积空间,也称为酉空间(unitary linear space)。

(8)f(β,α)=f(α,β)

  在有限维空间中,选定一组基{ε1,,εn}后,内积也可以由这组基上的度量矩阵(式(9))决定。度量矩阵显然满足A=A,并且当基通过过渡矩阵转变时,也同样有类似“合同”的关系式(10)。类似于实对称矩阵的可对角化,你也可以验证内积度量矩阵也是可对角化的。

(9)f(α,β)=XAY,aij=f(εi,εj)

(10)B=PAP

  由于内积的正定性,长度α距离d(α,β)的概念就自然引出了(式(1)),现在还需要证明三角不等式(4)(5),它们依赖于Schwarz-Cauchy不等式(式(2))。在复内积上,式(2)的证明本质和实数域上一样,只是在复数域上形式稍显复杂,其实直接将中轴数t=αββ2带入(α+tβ,α+tβ)0的展开式便可得到,请自行验证。

  由式(2)自然可以定义角度(式(11)),注意这里的取值范围,它在复线性空间中更合适。定义了角度后,自然地就能引出正交的概念,以及正交向量的勾股定理(式(6)),你可以自己完成这些推导。

(11)θ=arccos|αβ|αβ,(0θπ2)

2. 正交性和正交变换

  上面完成了内积空间的定义,并且看到酉空间对欧几里得空间是完全兼容的,今后的讨论都设定在酉空间中。

2.1 正交基

  由于内积的度量矩阵可以“合同”对角化,所以内积空间总是存在一组正交基。我们希望在正交基下继续研究空间结构,但没有度量的帮助这一切都无法实现。而现在有了内积的定义,下面就来着手讨论正交关系下的内积空间结构。先来看看正交向量的性质,设α1,,αs两两正交,如果有kiαi=0,该式分别与αj求内积得kj(αjαj)=0,从而kj=0。这就说明了内积空间中,两两正交的向量必然是线性无关的。

  从而n实内积空间中最多有n个正交向量,而且如果有的话它们便是一组基,单位向量组成的正交基又叫标准正交基。标准正交基使得度量有了单位,从而方便了表达。比如由于标准正交基的度量矩阵是I,向量的内积表达式就只与它们的坐标有关(式(12))。进一步地,设{η1,η2,,ηn}是一组标准正交基,则每个向量的坐标也可以直接由内积表示(式(13))。式(13)也叫向量的Fourier展开,其中坐标也叫Fourier系数

(12)αβ=XY=x1y1+x2y2++xnyn

(13)α=(αη1)η1+(αη2)η2++(αηn)ηn

  回顾实对称矩阵可合同对角化的证明,整个过程其实就是在寻找正交化基,现在把这个方法整理出来。设{α1,α2,,αn}是任意一组基,现在来构造一组正交基{β1,β2,,βn}。构造βi的过程既要引入向量αi,又要和已经构造的βj,(j<i)正交。模仿对角化的过程,先设β1=α1,然后设βi=αi+j<ikijβj。利用正交性可求出kij的唯一解,这就得到了正交基(式(14)),这个过程也叫Schmidt正交化

(14)β1=α1;βi=αij=1i1αiβjβjβjβj(2in)

2.2 酉矩阵(正交矩阵)

  以上正交化过程中,如果选取不同的基{α1,α2,,αn},也将得到不同标准正交基。这些标准正交基之间有什么样的关系?设两组基的过渡矩阵为P,根据两组基的度量矩阵的关系有PIP=I,为此定义满足AA=I的方阵为酉矩阵,在实数域上又叫正交矩阵(满足AA=I)。酉矩阵有着非常好的性质,首先它的逆矩阵正好就是它的共轭转置矩阵(式(15)),进而可知它的行向量和列向量都是坐标空间中的一组标准正交基。还容易看出,如果A,B是酉矩阵(正交矩阵),则A,A1,AB都是酉矩阵(正交矩阵)。PP=I两边取行列式,可知酉矩阵的行列式的模为1(对正交矩阵则是|P|=±1)。

(15)AA=IA1=AAA=I

  式(14)可以整理为如(16)的关系式,这个式子表示了两组基的过渡矩阵。考虑到可逆矩阵An行其实就是坐标空间的一组基,因此A可以表示为TB,其中B为行向量互相正交的矩阵。将B正交化为P1,系数转移到T上得到T1,于是就有A=T1P1。在A的列向量上讨论可以得到类似的结论,总结为式(17),就是说任何可逆方阵A可以分解为一个对角为正数的下三角矩阵T1和一个酉矩阵P1的乘积,也可以分解为一个酉矩阵P2和一个对角为正数的上三角矩阵T2的乘积。容易验证,这样的分解还是唯一的。

(16)[α1α2αn]=T[β1β2βn],T=[100α2β1β1β110αnβ1β1β1αnβ2β2β21]

(17)A=T1P1=P2T2

2.3 正交投影

  由于正定性,内积在任何子空间上W都是非退化的,类似上一篇的结论可知V=WW。更一般地,设V=W1Ws,将任何向量α映射到Wi中的分量αi的线性变换Pi,称为正交投影αi也称为α的正交投影。在几何空间中,正交意味着最短距离,这个结论在内积空间中也同样成立。取Wi中的任意向量β,由于(ααi)(βαi),通过式(18)的推导便有式(19)成立,当且仅当β=αi时等号成立,结论得证。

(18)αβ2=(ααi)(βαi)2=ααi2+βαi2

(19)αβααi,(β,αiWi)

  正交投影的最短距离原理可以用于数据的逼近,也就是说αiWi中对α最佳逼近元,现在来看一个应用。比如我们事先知道或假定变量y是向量[x1,,xn]的线性函数y=kixi,为了确定系数ki测得了m组样本{yj,x1j,,xnj}。考虑到测量误差,样本数m一般是要大于n的,但这样就可能导致方程组(20)可能无解。

(20)β=k1α1+k2α2++knαn,β=[y1ym],αi=[x1ixmi]

  β不一定能由αi线性表出,那只好取合适的ki使得d(β,kiαi)尽量小。利用正交投影的最短距离原理,即要求βα1,,αn上的正交投影。该条件等价于(βkiαi)αj=0,用矩阵表示就是式(21)。容易论证该方程有解,这个方法就是最小二乘法,得到的解也称为最小二乘解

(21)AAX=Aβ,A=[α1,,αn],X=[k1,,kn]

2.4 酉变换(正交变换)

  线性变换一直是我们研究线性空间结构的重要方法,现在就来看看引入度量的限制后,空间变换又体现出什么特性。其实更一般地,我们不在线性变换的基础上作度量的限制,而是先直接研究度量限制下的映射。为此定义保持内积不变的映射为保距映射(式(22)),首先保距映射显然保持向量的长度、距离和角度不变,这样的映射很有应用价值。接下来你容易验证式(23)成立,从而保距映射必定是线性映射。

(22)φ:VV:φ(α)φ(β)=αβ,α,βV

(23)φ(α+β)φ(α)φ(β)2=0;φ(kα)kφ(α)2=0

  最后使用反证法,容易知道保距映射是单射,对于有限维空间它显然是双射,对无限维空间还需要求映射是满射。有双射保距映射的内积空间称为是保距同构的,也记作VV。保距同构的有限维内积线性空间的维数必然相同,反之对维数相同的两个内积线性空间,分别取它们的一组标准正交基作为映射的像和原像。容易验证映射是保距映射,从而有限维内积线性空间保距同构的充要条件是:它们的维数相同。

  当保距变换作用于空间自身时,自然就是一种特殊的线性变换A,它被称为酉变换(实数域上又叫正交变换)。对有限维内积线性空间,线性变换是酉变换的充要条件是:一组标准正交基被变换为另一组标准正交基,即线性变换的矩阵A是酉矩阵。酉变换是比可逆线性变换条件更强的变换,保距性使得它更具有使用价值,后面我们会继续讨论酉变换下的空间结构。

  由于正交矩阵的行列式为±1,为此把正交变换分为两类,第一类的行列式为1,也叫旋转,这个概念来自于几何空间。第二类的行列式1,设P是到某个一维子空间的正交投影,则易证I2P是第二类的,它被称为镜面反射。其实还容易证明,任何一个第二类的正交变换,都是一个旋转叠加上奇数个镜面反射得来。

  对于线性变换,最重要的就是研究它的不变子空间的分割,而酉变换的保距性为我们的研究提供的很好的工具。设WV的不变子空间,由于V=WW,我们来考察W。设αW,βW,由于A是双射,则存在α=Aα,从而有式(24)的推导。也就是说AβW,所以W也是A的不变子空间,这样WW就是V的一个不变子空间分割。

(24)Aβα=AβAα=βα=0

  设A有特征值λ及其特征向量η,由式(25)的推导可知|λ|=1。在复数域中,特征值总是存在的,设W=η,则由刚才的结论知A|W仍然是正交变换。使用归纳法可知V有不变子空间分割η1ηn,其中Aηi=λiηi,而特征值λi的模都为1。这就是说酉变换的度量矩阵相似于一个对角矩阵,特别地,酉矩阵也可以对角化。酉矩阵是酉变换在一组标准正交基下的度量矩阵,对角化后的一组基{η1,,ηn}是正交的且很容易单位化,故酉矩阵的对角化时的过渡矩阵也可以是酉矩阵。换句话说,任何对任何酉矩阵A,总存在酉矩阵P使得式(26)成立,其中λiA的所有特征值。

(25)ηη=AηAη=ληλη=|λ|2(ηη)

(26)PAP1=diag{λ1,λ2,,λn}

  上面的讨论中,我们充分借助了变换在内积上形式特点,讨论了不变子空间的分割,并且借助于正交性,将相似限定在标准正交基上。由于酉矩阵同时充当了相似和合同的过渡矩阵,这还为两类问题找到了一个连接的通道。沿着这个思路,下面将继续使用内积来讨论线性变换,并得到在标准正交基下的不变子空间分割。

posted on   卞爱华  阅读(3169)  评论(2编辑  收藏  举报

编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架

导航

点击右上角即可分享
微信分享提示