【高等代数】03 - 二次型和矩阵的分解

  线性函数也是线性代数的重点知识,尤其是双线性函数,本质上定义了向量之间的二元运算。然后在非退化线性替换下,引出了矩阵的合同关系\(B=P'AP\)(记作\(A\cong B\)),类似于线性变换的标准型讨论,这里同样需要讨论合同关系下的等价类和标准型。对称双线性函数是最常见的向量运算,它的度量矩阵是对称矩阵,利用初等变换和归纳法,不难证明任何数域上的对称矩阵都合同于一个对角矩阵。这个结论为对称矩阵的讨论提供了非常便利的方法,而对于实对称矩阵正交分解\(A=T^{-1}DT\),更是完美地横跨相似变换和等价变换两个完全不同的领域,这使得实对称矩阵在线性代数中有着重要的位置。

1. 二次型

1.1 惯性指数

  对角线上依次是\(1,-1,0\)的合同矩阵称为原矩阵的标准型,由初等变换易知复对称矩阵\(A\)的标准型是\(\begin{bmatrix}I_r&0\\0&0\end{bmatrix}\),其中\(r\)是\(A\)的秩。当\(A\)为实对称矩阵时,它的标准型则为\(\text{diag}\{I_r,-I_s,0\}\),其中\(r,s\)分别称为正(负)惯性指数。由于惯性指数的唯一性,再结合对称矩阵的正交变换\(T'DT\),可知正负惯性指数分别是\(A\)正负特征值的个数。这还说明了,相似变换不改变矩阵的惯性指数。

  由于惯性指数是合同对称矩阵的“完全不变量”,那么对对称双线性函数的讨论完全可以脱离精确的线性函数范畴。尤其是其对称性,使得更简单常用的二次型便可以完全代表原矩阵,而正(负)定矩阵的概念更是根据二次型的特点命名的。现在站在二次型的角度,看看惯性指数还有什么特殊的意义。对二次型\(f(x_1,\cdots,x_n)\),假设某个线性替换(不一定非退化)可以把它变成形式(1)左,下面证明\(p\geqslant r,q\geqslant s\)。

\[f(x_1,\cdots,x_n)=z_1^2+\cdots+z_p^2-z_{p+1}^2-\cdots-z_{p+q}^2\;\Rightarrow\;p\geqslant r,q\geqslant s\tag{1}\]

  另外设\(f(x_1,\cdots,x_n)\)标准型是\(y_1^2+\cdots+y_r^2-y_{r+1}^2-\cdots-y_{r+s}^2\),以及\(HX=Z,GX=Y\),则有\(HG^{-1}Y=Z\)。如果\(p<r\),取\(Y=(y_1,\cdots,y_r,0,\cdots,0)'\),并令\(Z\)的前\(p\)个元素为\(0\),则由\(p<r\)可知这样的\(Y\ne 0\)是存在的。但这时\(f(Y)>0\)而\(f(Z)\leqslant 0\),矛盾,这就证明了\(p\geqslant r\),同样可以证明\(q\geqslant s\)。这个结论说明惯性指数是所有“标准型”中\(\pm 1\)个数最少的。

  要知道实对称矩阵的惯性指数,一般要计算所有特征值,计算复杂度较高。参考下面的2.1段,可知顺序主子式不为\(0\)的矩阵,可以有分解\(A=R'DR\),其中\(R'\)为对角全为\(1\)的上三角矩阵,\(D\)为对角非零的对角矩阵。且其中\(A\)的顺序主子式和\(D\)的顺序主子式完全相同,而\(D\)的惯性指数显然可以由顺序主子式完全确定,最终就是说\(A\)的惯性指数它的顺序主子式完全确定。完整地讲,如果\(A\)的顺序主子式\(A_k\)都非零,则序列\(1,A_1,A_2,\cdots,A_n\)的变号次数就是\(A\)的负惯性指数,不变号次数就是正惯性指数。

1.2 (半)正定矩阵

  正负惯性指数中有一项为\(0\)时,二次型在所有非零向量上表现出明显的符号特点(恒正、恒负、非正、非负),它们分别称为正定、负定、半负定、半正定,对应的矩阵也有相应的名称。尤其正定矩阵的恒正性,使得他很适合用来作为向量的度量,来定义向量的范数和距离。另外,对这类矩阵(二次型)的讨论有着非常实际的意义,由于对称性,这里仅讨论正定矩阵和半正定矩阵。

  注意到正定矩阵合同于单位矩阵\(I\),也就是说正定矩阵存在分解\(A=C'C\),其中\(C\)可逆。也可以换个说法,存在可逆矩阵\(C\)可把正定\(A\)对角化为\(C'AC=I\)。对另外任意的实对称矩阵\(B\),\(C'BC\)仍然是实对称矩阵,故存在实正交矩阵\(T\),使得\(T'C'BCT=D=\text{diag}\{\mu_i\}\)。

  设\(P=CT\),则有结论:当\(A\)为正定矩阵,\(B\)为实对称矩阵时,存在实可逆矩阵\(P\)使得\(P'AP=I,P'BP=D\)。这时容易有式(2)成立,当\(B\)是半正定矩阵时有\(\mu_i\geqslant 0\),从而得到\(|A+B|\geqslant|A|+|B|\),其中等号成立的充要条件是\(B=0\)。

\[|A+B|=|P^{-1}|^2\prod_{i=1}^n(1+\mu_i);\;\;|A|+|B|=|P^{-1}|^2(1+\prod_{i=1}^n\mu_i)\tag{2}\]

  现在考察正定矩阵\(A=\begin{bmatrix}B&C\\C'&D\end{bmatrix}\),用初等变换可将它对角化为\(\begin{bmatrix}B&0\\0&D-C'B^{-1}C\end{bmatrix}\),从而\(B,D,D-C'B^{-1}C\)都是正定矩阵。另一方面有式(3)左成立,再由刚才的不等式可有式(3)右成立,从而对正定矩阵\(A\),总有估计式\(|A|\leqslant\prod a_{ii}\)成立。

\[\begin{vmatrix}B&C\\C'&D\end{vmatrix}=|B||D-C'B^{-1}C|\leqslant|B||D|\tag{3}\]

1.3 判定条件

  正定(半正定)矩阵的典型特点就是,它的合同对角矩阵的对角元为正数(非负),故它的行列式为也为正数(非负)。再从二次型的角度考察正定(半正定)矩阵\(A\),它使得任意\(X'AX\)为正数(非负)。取\(X\)为某\(k\)个维度的向量(其它\(n-k\)个维度为\(0\)),\(X'AX\)仍然是正定(半正定)的,其对应的行列式是\(A\)的一个主子式,这就证明了正定(半正定)矩阵的所有主子式为正数(非负)。

  反之,对所有主子式为正数(非负)的实对称矩阵\(A\),如果它不是正定(半正定)的,则存在特征值\(\lambda<0\)。现在来考察特征多项式\(f(\lambda)\),前面知道它的每一项是\((-1)^k\lambda^{n-k}B_k\),其中\(B_k\)是\(A\)的所有\(k\)阶主子式之和。由于\(B_k\)不可能全部为\(0\)(除非全\(0\)矩阵,而它是半正定的),故有\(f(\lambda)\ne 0\),这与\(\lambda\)是特征值矛盾,从而证明了逆命题也成立。

  以上证明了正定(半正定)矩阵的充要条件是所有主子式为正数(非负)。2.1节中还有结论:顺序主子式皆非零的实对称矩阵,它的惯性指数由顺序主子式完全确定,从而对于正定矩阵而言,它的充要条件可以弱化为顺序主子式皆为正数。但要注意顺序主子式皆非负,并不是半正定的充分条件,最简单的反例就是\(\begin{bmatrix}0&0\\0&-1\end{bmatrix}\)。

  除了以上正定的充要条件,有时也可以综合正定矩阵的性质来判定。正定矩阵的一个典型特点是它合同于单位矩阵\(I\),由此它可以分解为\(P'P\),其中\(P\)可逆。设\(A,B\)皆为正定矩阵,来考察\(AB\)的正定的充要条件,首先必须得有\(AB\)对称,由此可以推出\(AB=BA\)。反之如果\(AB\)对称,设\(A=CC'\),其中\(C\)可逆,则\(C^{-1}ABC=C'BC\)。由\(B\)正定知\(C'BC\)正定,所以它的特征值皆为正,从而\(AB\)的特征值也为正,证得\(AB\)正定。

   再看一个复杂一点的情况,假设\(A,B\)正定,考察矩阵\(C=\{a_{ij}b_{ij}\}\)。设\(B\)有正交分解\(T'DT\),其中\(D=\text{diag}\{\mu_i\}\),\(\mu_i>0\)是\(B\)的特征向量。这样可有\(b_{ij}=\sum\limits_k\mu_kt_{ki}t_{k_j}\),这样可有\(C=\sum\limits_k\mu_kC_k\),其中\(C_k=[t_{ki}t_{kj}a_{ij}]\)。对任意列向量\(X\),\(X’C_kX=\delta'_kA\delta_k\),其中\(\delta_k=[t_{k1}x_1,\cdots,t_{kn}x_n]'\)。易知\(\delta_k\)不全为\(0\),从而\(X'CX=\sum\limits_k\mu_kX'C_kX>0\),这就证明了\(C\)也是正定矩阵。

1.4 实可逆矩阵

  前面提到,任何正定矩阵都可以分解为\(C'C\),其中\(C\)是实可逆矩阵。反之,对任意实矩阵\(C\)(不一定是方阵),来考察对称矩阵\(C'C\)。设有\(C'C\alpha=\lambda\alpha\),两边左乘\(\alpha'\)得到\(|C\alpha|^2=\lambda|\alpha|^2\),从而可以得到\(\lambda\geqslant 0\)。即\(C'C\)是半正定矩阵,尤其当\(C'C\)可逆时,它还是正定矩阵。

  另外,如果令方阵\(C\)有特征值\(\mu\)和特征向量\(\alpha\),则\(\alpha'C'C\alpha=\mu^2|\alpha|^2\)。再由上一篇式(18)可得\(\alpha'C'C\alpha\in[\lambda_1,\lambda_n]|\alpha|^2\),其中\(\lambda_1,\lambda_n\)是\(C'C\)的最小(大)特征值,从而\(\mu^2\in[\lambda_1,\lambda_n]\)。由于\(C'C\)的特征值非负,则可以得到估算式\(\sqrt{\lambda_1}\leqslant|\mu|\leqslant\sqrt{\lambda_n}\)。当\(C\)可逆时,由于\(A=C'C\)为正定矩阵,由1.2节的估计式可得到\(|C|^2=|C'C|\leqslant \prod\limits_i a_{ii}\),其中\(a_{ii}=\sum\limits_j c_{ji}^2\),这就得到式(4)的Hadamard不等式

\[|C|\ne 0\;\Rightarrow\;|C|^2\leqslant \prod_{i=1}^n\sum_{j=1}^n c_{ij}^2\tag{4}\]

2. 矩阵的分解

  矩阵的分解是矩阵计算的主要课题,它的任务是把一般性的矩阵分解为一些特殊矩阵(对角矩阵、三角矩阵、正交矩阵等)的乘积、或特殊形式的乘积(相似、合同等)。这不仅能帮助分析矩阵的本质,分解得到的特殊矩阵还能便于计算、分析复杂的表达式。这里再举一些一般性的例子,在“矩阵计算”(也叫“矩阵分析”)这门课中,我们会见到更广泛的应用。

2.1 初等矩阵分解

  先来看一个基础的,我们知道任何可逆矩阵都可以通过初等变换变成\(I\),这就是说可以矩阵都可以分解为一些初等矩阵的乘积(\(P(j,i(k)),P(i(k)),P(i,j)\))。另外由式(5)可知,\(P(i,j)\)可以由其它两个初等矩阵表示,从而可逆矩阵都可以表示为两类初等矩阵之积(\(P(j,i(k)),P(i(k))\))。其实不难发现,只用\(P(j,i(k))\)就可以把\(A\)对角化,且除了最后一个\(a'_{nn}\)外都可以化为\(1\),也就是说\(P(i(k))\)只要在最后出现一下就可以了。特别地,当\(|A|=1\)时,连最后这个\(P(n(1/|A|))\)都不需要,\(A\)可以拆分为若干\(P(j,i(k))\)之积。

\[P(i,j)=P(i,j(-1))P(j,i(1))P(i,j(-1))P(i(-1))\tag{5}\]

  继续加强以上条件,先假设\(a_{11}\ne 0\),那么可以只用下三角的\(P(j,i(k))\),将\(A\)的第一列的后\(n-1\)个数变成\(0\)。如果变换后的\(a'_{22}\ne 0\),这个过程还可以继续下去,直到把\(A\)变成一个上三角矩阵\(U\)。注意到这样的变换并不改变顺序主子式的值,从而加入的一系列条件等价于\(A\)的所有顺序主子式都不为\(0\)。而根据所有\(P(j,i(k))\)变换特点,可知它们组合后的矩阵\(B\)是一个下三角矩阵,且对角线皆为\(1\)。

  结论可以总结为:如果\(A\)的所有顺序主子式都不为\(0\),则存在下三角矩阵\(B\)和上三角矩阵\(U\),使得\(BA=U\)。从而矩阵\(A\)有分解\(A=LU\),其中\(L=B^{-1}\)为对角全为\(1\)的下三角矩阵(单位下三角矩阵),\(U\)是可逆上三角矩阵。满足条件的矩阵\(A\)显然都存在LU分解,并且用反证法还可知这样的分解是唯一的。设有两个分解\(L_1U_1=L_2U_2\),则有\(L_2^{-1}L_1=U_2U_1^{-1}\)。等式左边是单位下三角矩阵,右边为上三角矩阵,从而等式为单位矩阵,进而有\(L_1=L_2,U_1=U_2\),故LU分解唯一。

  当以上结论作用于有同样性质(顺序主子式非零)的对称矩阵\(A\)时,同样可得到唯一分解\(A=LDL'\),其中\(L\)同上、\(D\)为可逆对角矩阵。这个结论在第一段中已经被使用过两次,请再回头品味它的应用。

  关于初等变换,当然还有一个浅显的结论值得一提。对于一般的矩阵\(A_{m\times n}\),通过初等变换可以把它变成\(\begin{bmatrix}I_r&0\\0&0\end{bmatrix}\)的形式。这就是说\(A_{m\times n}\)可以分解为\(P_m\begin{bmatrix}I_r&0\\0&0\end{bmatrix}Q_n\),其中\(P,Q\)可逆、\(r\)为\(A\)的秩。

2.2 正交分解

  根据Schmidt正交化方法可知,任何可逆矩阵\(A\)都可以分解为\(QR\),其中\(Q\)为正交矩阵、\(R\)为上三角矩阵,这样的分解称为QR分解。另外,假设存在两个不同的分解\(Q_1R_1=Q_2R_2\),则有\(Q_2^{-1}Q_1=R_1R_2^{-1}\),等式左边是正交矩阵,右边为上三角矩阵。而显然三角正交矩阵只能是\(I\),故有\(Q_1=Q_2,R_1=R_2\),这说明QR分解是唯一的。其实对于一般的列满矩阵\(A_{m\times n}\),一样可以证明它有唯一分解\(Q_{m\times n}R_n\),其中\(Q\)为列满秩矩阵,\(R\)为上三角方阵。

  对于任意复矩阵\(A\),先找到任意特征值\(\lambda\)及特征向量\(\alpha\),将\(\alpha\)单位化并开展为正交基\(\{\eta_1,\cdots,\eta_n\}\)。考察正交矩阵\(T_0=[\eta_1,\cdots,\eta_n]\)下的正交变换\(B=T_0^{-1}AT_0\),易知\(B\)有形式\(\begin{bmatrix}\lambda&\beta\\0&C\end{bmatrix}\)。利用归纳法可以证明,\(A\)正交相似于一个上三角矩阵\(U\),即存在正交矩阵\(T\)使得\(A=T^{-1}UT\)。

  对任意实矩阵\(A\),如果假设它的特征值都是实数,类似刚才的推论可以得到相同的结论。这时如果再附加对称的条件,则同样证得\(A\)正交相似于对角矩阵。这是我们熟悉的结论,这里从另一个视角再看到它。当然这个条件也可以以其它形式给出,比如假设\(A'A=AA'\)(正规矩阵),可以得到\(UU'=U'U\),依次对比等式两边的对角线可知\(U\)为对角矩阵(从而\(A\)为对称矩阵)。

2.3 正定矩阵的分解

  由于实对称矩阵可以有正交变换\(A=T^{-1}DT\),如果\(A\)正定,则可以有拆分\(D=D_0^2\),其中\(D_0=\text{diag}\{\sqrt{\lambda_i}\}\)。这样就可以说正定矩阵可以有分解\(A=C^2\),其中\(C\)为正定矩阵。\(C=T^{-1}D_0T\)是显然的一个分解(\(A=C^2\)),那它是不是唯一分解呢?设有两种分解\(C_1=T_1^{-1}D_1T_1,C_2=T_2^{-1}D_2T_2\),由\(C_1^2=C_2^2\)可得\(D_1^2S=SD_2^2\),其中\(S=T_1T_2^{-1}\)为正交矩阵。这样就有\(d_{1i}^2s_{ij}=s_{ij}d_{2j}^2\),不管怎样都有\(d_{1i}s_{ij}=s_{ij}d_{2j}\),从而\(D_1S=SD_2\)。再按原路返回便得到\(C_1=C_2\),分解的唯一性得证。

  另外,当\(A\)为实可逆矩阵时,\(A'A\)是正定矩阵,从而可以有唯一分解\(A'A=S_1^2\),其中\(S_1\)是正定矩阵。容易验证\((A')^{-1}S_1\)是正交矩阵,从而存在分解\(A=TS_1\),其中\(T\)为正交矩阵。取\(S_2=TS_1T^{-1}\),则有\(A=S_2T\),其中\(S_2\)也是正定矩阵。另外不难证明\(S_1,S_2\)的唯一性,从而得到极分解定理:实可逆矩阵有唯一分解\(A=TS_1=S_2T\),其中\(T\)为正交矩阵、\(S_1,S_2\)为正定矩阵。进一步地,可以将\(S_1\)进行正交分解,从而实可逆矩阵\(A\)有分解\(T_1DT_2\),其中\(T_1,T_2\)为正交矩阵、\(D=\text{diag}\{\sqrt{\lambda_i}\}\)(\(\lambda_i\)为\(A'A\)特征值)。

2.4 矩阵分解总结

  以下式(6)~(11)总结了至今讲到的重要矩阵分解,其中\(P\)是可逆矩阵、\(T,Q\)是正交矩阵、\(S\)为正定矩阵、\(L\)为对角线全为\(1\)的下三角矩阵、\(U,R\)为可逆上三角矩阵,\(\overset{*}{=}\)表示分解唯一。\(D\)为对角矩阵,其中式(8)中\(D\)的对角元素为所有特征值,(11)式中\(D\)可逆。

\[|A|\ne 0\;\Rightarrow\; A\overset{*}{=}QR\overset{*}{=}TS_1\overset{*}{=}S_2T=T_1DT_2\tag{6}\]

\[A=A'\Rightarrow A=P'DP\tag{7}\]

\[A=A',A\in \mathbb{R}_{n\times n}\Rightarrow A=T'DT\tag{8}\]

\[A\cong I,A\in \mathbb{R}_{n\times n}\;\Rightarrow\;A=P'P\overset{*}{=}S^2\tag{9}\]

\[A_k=\begin{vmatrix}a_{11}&\cdots&a_{1k}\\\vdots&\ddots&\vdots\\a_{k1}&\cdots&a_{kk}\end{vmatrix}\ne 0,(k=1,\cdots,n)\;\Rightarrow\; A\overset{*}{=}LU\tag{10}\]

\[A=A',A_k\ne 0\;\Rightarrow\;A=LDL'\tag{11}\]

posted on 2020-05-07 23:53  卞爱华  阅读(3538)  评论(0编辑  收藏  举报

导航