【高等代数】02 - 矩阵的逆和相似矩阵

  矩阵本质的意义在于线性变换,可以说离开线性变换,矩阵是毫无用处的。而线性变换的基本运算就是加法和乘法,其中对矩阵乘法的研究一直是线性代数中的核心内容。其中包括矩阵的幂次方、矩阵的逆、矩阵的分解,而且它们是互相渗透的。虽然说研究矩阵乘法的目的是线性变换,但乘法本身的性质可以脱离线性变换而讨论,我们将再花两篇的空间来展开阐述。

1. 矩阵的逆

1.1 矩阵的计算

  一般矩阵的乘法是不可交换的(ABBA),但在一些特殊情况可以满足交换律,适当地使用交换性将得到很多漂亮的结论。一个典型的代表就是同一个矩阵的幂次Ak之间是可交换的,这使得对任何多项式f(x)f(A)可以自由使用。这包含两层意思,一个是不管f(x)写成什么样的因式形式,f(A)都是相同的;另一个意思是对任何多项式都有f(A)g(A)=g(A)f(A),这使得一些复杂表达式的处理更加自由。

   另外,证明矩阵可逆和求矩阵的逆,一般使用定义(行列式非零和代数余子式)以及初等变换法。对于一些特殊矩阵,其实可以直接拼凑出AB=I的形式,这样就得到A1=B。在本篇特殊矩阵部分,我们还会碰到这样的例子,这里先举一些普通的例子。比如已知A+B=AB,则有A(BI)=B,两边减去I整理得(IA)(IB)=I,从而IA,IB互为逆矩阵。随之还能得到(IB)(IA)=I,展开后有A+B=BA,从而还能得到AB=BA

  另外前面已经证明|ImAB|=|InBA|,那么如果已经知道C=(ImAB)1,如何来求(InBA)1呢?基本思路其实就是拼凑,首先由于(ImAB)C=I,为了凑出BA,现在两边同时乘上B,整理后得到B=(InBA)BC。两边同时乘上A并用In来减,整理后得到(InBA)(In+BCA)=In,所以有式(1)成立。

(1)(InBA)1=In+B(ImAB)1A

1.2 广义逆矩阵

  以前我们简单介绍过广义逆矩阵,这里再稍微细致地讨论一下。在一般矩阵方程AX=B中,如果A可逆,则X完全确定且可以简单地表示出来A1B。但A不可逆时,现在却没有较好的工具描述AX=B有解的充要条件,并给出解的一般形式。这时我们希望能有类似A的逆的概念,或者说矩阵的逆进行扩展,下面从方程AX=β的解中寻找广义逆的形式特点。

  如果A的秩为r,则存在可逆矩阵P,Q使得A=P[Ir000]Q,带入方程可以得到[Ir000]QX=P1β。把P1β分块写成[Yr,Z],方程有解的必要条件是Yr0,Z=0,且这时方程等价于QX=[Yr,W],其中W任意。不难看出,[Yr,W]其实可以表示为[IrBCD][Yr0]=[IrBCD]P1β,其中B,D任意,而CYr要能取遍所有W。由Yr0可知C可以任意取,这就得到了式(2)方程的通解,其中B,C,D任意。

(2)AX=βX=Q1[IrBCD]P1β

  可以看出把式(3)做为A的“逆矩阵”是合理的,它被称为A广义逆矩阵,记作AA虽然没有一般逆矩阵的所有性质,但也有个别性质和逆矩阵很像,比如这里的方程解。再比如有等式AAA=A,其实如果有ABA=A,利用A=P[Ir000]Q,不难推到B=A,故A有式(4)的等价定义。

(3)A=P[Ir000]QA=Q1[IrBCD]P1

(4)B=AABA=A

  现在我们回到方程,还有一个问题没有解决,就是只用A,β来描述方程有解的充要条件。首先方程有解时,β=AX=AAβ,反之当AAβ=β时,方程显然有解Aβ。故方程AX=β有解的充要条件是AAβ=β。以上通解形式只是理论结果,在使用过程中很不方便,我们需要寻找别的表示方法。当得到一个特解Aβ后(A取一特定值),只需求解其次方程AX=0。首先不难构造出解(IAA)W,其次对于如何解都有(IAA)X=X,从而(IAA)WAX=0的通解,最终便有了AX=β的通解式(5),其中W为任意n维向量。

(5)AX=βX=Aβ+(InAA)W

  广义逆矩阵可以运用在更多的矩阵方程中,构造法往往是求得通解的方法,教材上有具体的例子。现在来看一个判断广义逆的秩方法,使用的是式(6)的秩关系式,先用Sylvester秩不等式得到,再由变换[A00IBA][AABA0BAI]可以得到B=A等价于A=ABA,而由式(6)就知道这等价于式(7)右,它便是我们要说的秩判别法。

(6)rank(AABA)=rank(A)+rank(IBA)n

(7)B=Arank(A)+rank(IBA)=n

1.3 Moose-Penrose广义逆

  广义逆矩阵可能不唯一,而且也没有很多简单的性质,甚至连基本的对称性都不满足。那么在众多广义逆矩阵里,有没有更加独特的哪一个呢?既然有AXA=A,至少还应该有XAX=X吧,乘积AA,AA虽然不是单位矩阵,但至少是对称的吧。满足式(8)右的矩阵便称为Moose-Penrose广义逆,记作A+。先来看A+是否存在,当A=0时,容易知道有唯一解A+=0。当A0时,设A=BC,其中B,C分别列、行满秩。可以验证式(9)右满足条件,并且讨论式(10)还能论证唯一性。

(8)B=A+ABA=A,BAB=B,(BA)=BA,(AB)=AB

(9)A=BCA+=CR(CCR)1(CRB)1BR,(XR=X¯)

(10)X1=X1AX1=X1(AX2)(AX1)=X1(AX1AX2)R=X1X2RAR=X1AX2

  自然由对称性可知(A+)+=A,但却不能如愿地得到(AB)+=B+A+。还需要添加一些条件,比如令A,B分别为列、行满秩矩阵,则有A=AI,B=IB。由式(9)知A+=(ARA)1AR,B+=BR(BBR)1,然后就容易验证得到式(11)。

(11)rank(Am×n)=n,rank(Bn×m)=n(AB)+=B+A+

2. 线性变换

2.1 相似变换

  我们知道,一个线性变换等价于一类矩阵,这类矩阵称为相似的,并且它们之间有相似变换B=P1AP。为了找到线性变换的根本特性,就需要找到这类矩阵的相似不变量,用尽量少而简单的特征来区分和刻画不同的线性变换。这个问题在复空间上得到完满解决,Jordan标准型给出了独一无二的刻画方法。在其它数域上,标准型经常无法给出,我们转而研究可对角化的线性变换,它们有着更加实用的形式。

  相似变换的不变量有很多,其中有个不显眼但却很有趣的量,就是矩阵对角线之和tr(A),它也称为方阵的。迹有个很重要的结论,就是式(12)左的交换乘积顺序不变性,并由此能轻松推到式(12)右的相似不变性。这个特点在有些场合有助于判断矩阵的性质,比如如果ABBA=A,则可以判断A不可逆,否则就有ABA1B=I,而两边的迹显然不相等。

(12)tr(AB)=tr(BA)tr(P1AP)=tr(A)

2.2 特征值和特征多项式

  当然,相似变换的最重要的不变量还是特征值(或特征多项式),它们也是矩阵对角化的主角,特征多项式是指行列式|λIA|。利用行列式的性质,可以将它按行(或列)拆成2n个行列式之和,其中每个行列式的第i行取自λIA。从而每个行列式都是单项式aλk,其中k等同于行列式取自λI的行的个数,a则是A剩下的主子式。这就是说特征多项式的λk系数就是A所有nk阶主子式之和,特别地,λn1的系数是tr(A),常数项则是(1)n|A|

  由于方阵是否可逆等价于|A|是否为0,这就说明了方阵可逆的充要条件是它没有特征值0。而对可逆矩阵,由Aα=λα可知λ1α=A1α,从而可逆矩阵与它的逆有相同的特征向量,且对应的特征值为其倒数。还有一个浅显的结论是,如果λA的特征值,则显然λkAk的特征值,而f(λ)f(A)的特征值。

  反过来还可以证明,f(λ)便是f(A)的所有特征值。为此先设An个特征值为λi(包括重根),再设任意m次首1多项式g(x)m个根为μj(包括重根),不难得到式(13)的推导。从而直接有|λIf(A)|=(λf(λi)),所以f(A)的所有特征值就是f(λi),结论得证。

(13)|g(A)|=j=1m|AμjI|=j=1mi=1n(λiμj)=i=1ng(λi)

  当然也不是所有特征值都是要解特征多项式,对于一些特殊矩阵,充分利用它的特点,也可以很快计算出特征值,这里仅举两例。正交矩阵是指满足AA=I的方阵,从而有A1=A以及AA=I,也就是说它的每行(列)的范数为1且互相正交。假设Aα=λα,考察C=(Aα)Aα,首先有C=αAAα=|α|2,还可以有(λα)(λα)=λ2|α|2,从而得到λ=±1。另外容易有|A|=±1,而所有特征值的积为|A|,故当|A|=1时它必有特征值1,当|A|=1且阶为奇数时必有特征值1

  再来看一下AB,BA特征值的关系,由等式|ImAB|=|InBA|不难推导出式(14)。这就是说AB,BA完全相同的特征值和重数(0除外),且0特征值的重数相差|mn|,当A,B为方阵时它们有相同的特征值和重数。另外如果αAB的特征向量,则有ABα=λα,两边乘上BBA(Bα)=λ(Bα),从而BαBA同一特征值下的特征向量。

(14)λn|λImAB|=λm|λInBA|

  最后我们来一个简单的特征值的估算方法,先假设Aα=λα,其中α=(a1,a2,,an)。假设{|ai|}的最大值为|ak|,则考察Aα=λα的第k个元素,整理后不难有估计式(15)。对于A的每一行(列),式(15)的取值范围也被称为Gersgorin圆盘,从而任何特征值一定在某个圆盘中。有时把A的复特征值集合称为A,而特征值模的最大值称为A谱半径Sr(A),利用公式(15)容易得到式(16)。

(15)|λakk|jk|akj|

(16)Sr(A)maxj|aij|;Sr(A)maxi|aij|

2.3 对角化和实对称矩阵

  再来回到相似对角化上来,我们知道矩阵可相似对角化的充要条件是:所有特征向量空间的秩和为n。这个判断方法使用起来比较麻烦,倒是很多充分条件判断起来更容易且更实用,比如特征值互不相同,再比如实对称矩阵等。可对角化的矩阵对于计算非常有利,尤其是计算矩阵的幂Am,可以直接得到结果P1DmP

   求证:(1)如果AB,则AB;(2)如果A可对角化,则A也可以对角化,并求对角元。

  实对称矩阵是很常见的一种矩阵,它在线性代数中也占据了十分重要的地位,它的最大特点就是可以正交对角化(以下来证明)。设λ,α是实对称矩阵A的特征值、特征向量,则易知λ¯,α¯也是A的特征值、特征向量。由于A=A,从两个角度考察αAα¯,分别得到λ|α|2,λ¯|α|2,从而得到λ=λ¯,得到λ是实数。从而实对称矩阵的(复)特征值、特征向量都是实数,任何实对称矩阵都至少有一个特征值λ和特征向量α

   求证:反对称实矩阵的特征值为纯虚数。

  将特征向量α扩展为一组正交基并组成正交矩阵T0,不难证明T01AT0具有形式[λ00B],且B还是实对称矩阵。利用归纳法容易证明,存在正交矩阵T使得A=T1DT,其中D=diag{λi}。这就是说,实对称矩阵(正交)相似于对角矩阵,且不难证明所有特征值是实对称矩阵的完全不变量。结论在另一方面还说明,实对称矩阵不同特征值的特征向量相互正交。这个结论其实也可以直接证明。比如从两个角度考察α1Aα2,分别得到λ1(α1,α2),λ2(α1,α2),从而λ1λ2时必然有(α1,α2)=0

  实对称矩阵的正交可对角化是个非常重要的结论,后面的二次型中还会讨论到,这里先举个典型的例子。同样设A=T1DT,考察αAα,并记Tα=[b1,,bn],则容易有式(17)的推导(其中λ1,λn分别是A的最小和最大特征值)。这样就得到了式(18)左的估计式,特别地取α为第i位为1、其它位为0的向量,还能得到式(18)右的估计式。

(17)αAα=i=1nλibi2[λ1|Tα|2,λn|Tα|2]=[λ1,λn]|α|2

(18)λ1αAα|α|2λn;λ1aiiλn

  最后来看一个有趣的应用,Fibonacci数列大家都不陌生,它的递推式为an+2=an+1+an。如果记αn=[an+1,an],则递推式可以写成αn+1=Aαn,其中A=[1110]。求得A的特征值后便可以有对角化分解A=P1DP,其中P=[λ1λ211],D=[λ1λ2]。另外由递推式可知αn=Anα0,这样就能得到an的通项公式。

3. 特殊矩阵

  具有特殊形式或性质的矩阵,在矩阵运算中和分析中具有很重要的作用。当然特殊矩阵的概念很宽泛,包括可逆矩阵、三角矩阵、对角矩阵、对称矩阵、正交矩阵等都可以称为特殊矩阵。这里先列举几个与本篇内容相关的特殊矩阵,一是为了综合运用上面的知识,二是这些矩阵的确有自己的独特性质。下一篇中的矩阵分解中,我们将继续讨论特殊矩阵的特点和应用。

3.1 幂零矩阵

  如果存在正整数k使得Ak=0,这样的方阵A称为幂零矩阵,它的典型代表就是式(19)左的对角线为0的上三角矩阵AAi只有右上角的ni条次对角线非零,并且An=0。其中更特殊的就是式(19)右的矩阵,它只有上次对角线全为1的(其它为0),易知Ai只有第i条上次对角线全为1(其它为0)。

(19)[0a12a1na(n1)n0];[0110]

  利用式(20)我们就容易知道,IaAi=1n1aiAi都是可逆矩阵,且互相为对方的逆矩阵。这就为求一类矩阵的逆提供了快捷的结论,而a=±1时的结论比较常用。这种方法同样适用于全1矩阵Jn,它是一个所有元素都为1的方阵,它的典型特点是J2=nJ。利用利用这个等式和方程思想,便可以计算一些矩阵的逆。比如要求I+J的逆,可以直接假设(I+J)(I+xJ)=I,然后解得x=1/(n+1)

(20)(IaA)(I+aA+a2A2++an1An1)=IanAn=I

3.2 幂等矩阵

  幂等矩阵就是满足A2=A的方阵,由定义显然有A(IA)=0,从这个平淡无奇的式子里能得到什么呢?令B=IA,由对称性知B也是幂等矩阵,且A+B=I。首先由AB=0rank(A)+rank(B)n,另外还有rank(A)+rank(B)rank(A+B)=n,从而得到rank(A)+rank(B)=n。反之如果A+B=Irank(A)+rank(B)=rank(A+B),由Sylvester秩不等式便有rank(AB)=0,从而得到A,B都是幂等矩阵。

  这个结论其实可以得到很好的扩展,更一般地,设方阵满足A=A1++As。以下看三个条件:(I)Ai都为幂等矩阵,且ij时有AiAj=0;(II)A为幂等矩阵;(III)rank(Ai)=rank(A)。其中条件(II)等价于(II')rank(A)+rank(IA)=n,下面来寻找条件(I)的等价条件。令D=diag{A1,,As},再令Ks×sI组成的分块矩阵,则不难发现条件(I)等价于是说:KD的广义逆。

  利用公式(7)知它等价于rank(D)+rank(IKD)=ns,对IKD进行初等变换可以得到diag{IA,I,,I},从而有rank(IKD)=n(s1)+rank(IA)。注意到rank(D)=rank(Ai),这时(I)的等价条件变为(I')rank(Ai)=nrank(IA)。现在看条件(I')(II')(III),其中任意两者都可以推导出第三者,这个结论对条件(I)(II)(III)当然也是成立的。

  另外对于特征值λ和特征向量α,由于A2α=Aα得到λ2α=λα,从而A只有特征值1,0。特征值0的特征空间就是(0A)X=0的解空间,它的秩为nr,其中rA的秩。特征值1的特征空间是(IA)X=0的解空间,由于IA的秩为nr,故解空间的秩为r。这样两个特征空间的秩和为n,故幂等矩阵能相似对角化,且对角矩阵为[Ir000]。由于迹的不变性,反之能得到任何幂等矩阵的秩为tr(A),这非常便于计算。比如以上条件(II)如果加上“Ai都是幂等的”,则直接得到条件(III),从而可知条件(I)成立。

  上段的讨论还说明,幂等矩阵本质上就是特征值1的特征空间上的投影变换。设幂等矩阵A,B本质上分别是投影变换PU,PW,如果还有条件AB=0,用反正法可知U,W交集为空,从而他们线性无关。这样不仅有BA=0,还有A+B也是幂等变换,而且是在U+W上的投影。

3.3 位移矩阵

  位移矩阵是指矩阵Sn=[0In110],当它左乘矩阵A时,相当于把A循环上移一行,当它右乘矩阵A时,相当于A循环右移一列。Sn是一个特殊的正交矩阵,它的逆显然是[01In10]Sn1的作用与Sn恰好相反。容易算得Sn的特征多项式为λn1,故它的特征值是所有单位复数ωi,由Sn的循环特性不难构造出ωi的特征向量[1,ωi,,ω(n1)i]。这样就有Sn=P1DP,其中D=diag{1,ω,,ωn1},且P={ωij}

  第一篇中我们碰到过循环矩阵Cn,观察Snk的形式特点,不难得到式(21)。从而Cnn个特征值为f(ωi),且和Sn有相同的特征向量P,这样就可以把Cn写成P1DP,其中D={f(ωi)}。这样就不难算得|Cn|=|D|=f(ωi),和前一篇的结论是一样的,但思路却更加自然。

(21)Cn=f(Sn)=a1In+a2Sn+a3Sn2++anSnn1

posted on   卞爱华  阅读(6052)  评论(0编辑  收藏  举报

编辑推荐:
· DeepSeek 解答了困扰我五年的技术问题
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
阅读排行:
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· DeepSeek 解答了困扰我五年的技术问题。时代确实变了!
· 本地部署DeepSeek后,没有好看的交互界面怎么行!
· 趁着过年的时候手搓了一个低代码框架
· 推荐一个DeepSeek 大模型的免费 API 项目!兼容OpenAI接口!

导航

点击右上角即可分享
微信分享提示