【线性代数】 09 - 正规变换和二次型
1. 正规变换
1.1 伴随变换
在上一篇的最后我们看到,满足一定内积性质的线性变换可以有很好的不变子空间分割,现在对更一般的形式进行讨论。设内积空间中有\(V=W\oplus W^{\perp}\),且\(W\)是线性变换\(\mathscr{A}\)的不变子空间,任取\(\alpha\in W,\beta\in W^{\perp}\)。在酉变换中,其实是利用了等式\((\mathscr{A}^{-1}\alpha)\cdot\beta=\alpha\cdot(\mathscr{A}\beta)\)和\(\mathscr{A}\)的可逆性,得到的不变子空间的性质。
更一般地,如果对任意的\(\alpha,\beta\),存在线性变换\(\mathscr{A}^*\)满足式(1),则在上段的条件下易知\(\alpha\cdot(\mathscr{A}^*\beta)=0\),从而\(W^{\perp}\)是\(\mathscr{A}^*\)的不变子空间。另外,当选定\(\beta\)时,易知\((\mathscr{A}\alpha)\cdot\beta\)是关于\(\alpha\)的线性函数。由于内积是非退化的双线性函数,故存在唯一的\(\beta'\),使得\(\alpha\cdot\beta'=(\mathscr{A}\alpha)\cdot\beta\)。
\[(\mathscr{A}\alpha)\cdot\beta=\alpha\cdot(\mathscr{A}^*\beta)\tag{1}\]
记映射\(\beta\mapsto\beta'\)为\(\mathscr{A}^*\),容易验证\(\mathscr{A}^*\)是一个线性变换。刚才的结论说明,满足式(1)的线性变换\(\mathscr{A}^*\)是存在且唯一的,它也叫\(\mathscr{A}\)的伴随变换。根据伴随变换的定义,容易得到\(\mathscr{A}+\mathscr{B},\mathscr{AB},k\mathscr{A},\mathscr{A}^*,\mathscr{A}^{-1}\)的伴随变换具有式(2)(3)的性质,请自行验证。
\[(\mathscr{A}+\mathscr{B})^*=\mathscr{A}^*+\mathscr{B}^*;\quad(\mathscr{AB})^*=\mathscr{B}^*\mathscr{A}^*\tag{2}\]
\[(k\mathscr{A})^*=\overline{k}\mathscr{A}^*;\quad (\mathscr{A}^*)^*=\mathscr{A};\quad (\mathscr{A}^{-1})^*=(\mathscr{A}^*)^{-1}\tag{3}\]
在有限维内积空间中,为了得到\(\mathscr{A}\)和\(\mathscr{A}^*\)矩阵\(A,B\)的关系,最好是要用到式(1)。线性变换矩阵的元素其实就是一些坐标,想到标准正交基下的坐标可用内积表示,我们便在一组标准正交基\(\{\eta_1,\cdots,\eta_n\}\)下考察矩阵。而根据式(4)的推导,容易知道\(B=\overline{A'}\)。回顾酉变换在标准正交基下的矩阵为酉矩阵\(A\),那么它的伴随变换的矩阵便是\(\overline{A'}=A^{-1}\),这与我们开始的论述相符。
\[b_{ij}=(\mathscr{A}^*\eta_i)\cdot\eta_j=\eta_i\cdot (\mathscr{A}\eta_j)=\overline{(\mathscr{A}\eta_j)\cdot\eta_i}=\overline{a_{ji}}\tag{4}\]
注意,当单独谈论矩阵\(A\)时,完全可以构造一个线性变换,使其在某个标准正交基下的变换矩阵是\(A\),所以伴随矩阵的概念对任何矩阵都存在。同样,下面在讨论相似矩阵时,可以默认它是在某个标准正交基下的变换矩阵(此时内积等价于坐标向量的内积),这样某些结论就不会困惑了。
1.2 正规变换
现在接着伴随变换的概念,继续讨论线性变换的可对角化问题,当然这里还要限定在标准正交基下。先来构造一个可对角化的充分条件,回顾酉变换可对角化的过程,需要先找到单位特征向量\(\eta\),使得\(W=\left<\eta\right>\)和\(W^{\perp}\)都是\(\mathscr{A}\)的不变子空间。\(W\)是不变子空间是显然的,而由上面的结论知\(W^{\perp}\)是\(\mathscr{A}^*\)的不变子空间,只需要求\(W\)也是\(\mathscr{A}^*\)的不变子空间,便可证\(W^{\perp}\)是\(\mathscr{A}\)的不变子空间。
如果\(W\)也是\(\mathscr{A}^*\)的不变子空间,可假设\(\lambda,\lambda'\)分别是\(\eta\)在\(\mathscr{A},\mathscr{A}^*\)上的特征值,由\((\mathscr{A}\eta)\cdot\eta=\eta\cdot(\mathscr{A}^*\eta)\)可知\(\lambda'=\overline{\lambda}\)(有矩阵关系也知道\(\overline{\lambda}\)是\(\mathscr{A}^*\)的特征值)。为了将问题向内积转化,\(W\)也是\(\mathscr{A}^*\)的不变子空间的要求可以强化为(4)式左边(\(\alpha\)任意),用内积展开并整理可得(4)式右边成立。利用伴随变换的定义,等式两边分别变形为\(\alpha\cdot(\mathscr{A}^*\mathscr{A}\alpha)\)和\(\alpha\cdot(\mathscr{AA}^*\alpha)\)。为此,如果要求式(5)成立,且特征值总存在,则由归纳法可证\(\mathscr{A}\)存在一组正交特征向量组成的基。
\[\left\|\mathscr{A}\alpha-\lambda\alpha\right\|=\left\|\mathscr{A}^*\alpha-\overline{\lambda}\alpha\right\|\quad\Leftrightarrow\quad (\mathscr{A}\alpha)\cdot(\mathscr{A}\alpha)=(\mathscr{A}^*\alpha)\cdot(\mathscr{A}^*\alpha)\tag{4}\]
\[\mathscr{A}^*\mathscr{A}=\mathscr{AA}^*\quad\Leftrightarrow\quad A\overline{A'}=\overline{A'}A\tag{5}\]
我们将满足式(5)的线性变换称为正规变换,其对应的矩阵被称为正规矩阵。上面的证明中,其实还暗含了正规变换的两个性质,作为下面的习题,请自行论证。另外,由于等式(4)成立,正规变换在特征值(特征向量)上的性质总结为:\(\lambda\)为\(\mathscr{A}\)的特征值的充要条件为\(\overline{\lambda}\)为\(\mathscr{A}^*\)的特征值,同时,\(\eta\)为\(\mathscr{A}\)属于\(\lambda\)的特征向量的充要条件是\(\eta\)为\(\mathscr{A}^*\)属于\(\overline{\lambda}\)的特征向量。
• 如果\(\mathscr{A}\)为正规变换,求证:对任意\(\alpha\)总有:\(\left\|\mathscr{A}\alpha\right\|=\left\|\mathscr{A}^*\alpha\right\|\);
• 如果\(\mathscr{A}\)为正规变换,\(c\)为任意复数,求证:\(c\mathscr{I}-\mathscr{A}\)也是正规变换。
设\(\{\eta_i\}\)就是一组正交特征向量组成的基(对应特征值为\(\{\lambda_i\}\)),把它们单位化后的坐标列向量组成一个酉矩阵(正交矩阵)\(P^{-1}\),利用\(A\eta_i=\lambda_i\eta_i\)即有式(6)左成立,即正规矩阵可被一个正交矩阵对角化。反之,如果任一矩阵\(A\)可被正交矩阵对角化,即存在酉矩阵(正交矩阵)\(P\)使得(6)式左边成立,等式两边取共轭转置便得(6)式右边,结合这两个式子容易证明\(A\)为正规矩阵。从而可以总结:\(A\)可正交对角化的充要条件是,\(A\)是正规矩阵且有\(n\)个特征值(包括重数)。这个结论放到线性变换上便是:\(\mathscr{A}\)有一组正交特征向量组成的基的充要条件是,\(\mathscr{A}\)是正规变换且有\(n\)个特征值(包括重数)。注意,在复数域上总是有\(n\)个特征值的,故结论在复数域的表述更加简单。
\[PAP^{-1}=\text{diag}\,\{\lambda_1,\cdots,\lambda_n\}\quad\Leftrightarrow\quad P\overline{A'}P^{-1}=\text{diag}\,\{\overline{\lambda_1},\cdots,\overline{\lambda_n}\}\tag{6}\]
1.3 Hermite变换
现在来看一类特殊的正规变换,就是满足\(\mathscr{A}^*=\mathscr{A}\)的线性变换,将其带入式(1)可得式(7)。其实还容易验证,对任意满足式(7)的变换,它都是线性变换,为此我们把满足式(7)的变换称为Hermite变换或自伴随变换。当然Hermite变换是正规变换,且满足\(\mathscr{A}^*=\mathscr{A}\),它在任意标准正交基下的矩阵\(A\)显然还满足\(A=\overline{A'}\),这样的矩阵也称为Hermite矩阵或自伴随矩阵。
\[(\mathscr{A}\alpha)\cdot\beta=\alpha\cdot(\mathscr{A}\beta)\tag{7}\]
从式(6)可知,Hermite矩阵的特征值一定为实数,从而它(在复数域)对角化后是实矩阵。为了对角化线性变换(求得对角矩阵),只要先求得所有特征值,再求得对应的特征向量。最后对同一个特征值的特征向量正交化和单位化,以这些正交的单位特征向量作为标准正交基,即可对角化线性变换。以这个标准正交基的坐标作为列向量的矩阵\(P\),便是对角化矩阵的过渡矩阵。显然,这个方法对一般正规变换也使用。
特别地,在实数域上,Hermite矩阵显然是实对称矩阵,所以实内积空间中满足式(7)的变换也叫对称变换。因为Hermite矩阵的特征值都是实数,故实对称矩阵就有\(n\)个特征值(包括重数),所以式对称矩阵总可以在某个标准正交基(实数域)下对角化。设\(P\)为正交矩阵,实数域上满足\(B=PAP^{-1}\)的\(A,B\)也称为正交相似,所以实对称矩阵正交相似于对角矩阵(式(8))。
\[A=A'\quad\Leftrightarrow\quad PAP^{-1}=\text{diag}\,\{\lambda_1,\cdots,\lambda_n\}\tag{8}\]
2. 二次型
2.1 二次型及其标准型
本篇的最后,我们来看一个双线性函数的应用。你可能已经留意到,有限维空间中的双线性函数其实是一个关于向量坐标的二次函数,特别地,\(f(\alpha,\alpha)\)是一个\(n\)元二次齐次函数\(\sum\limits_{i}{a_{ii}x_i^2}+\sum\limits_{i\ne j}(a_{ij}+a_{ji})x_ix_j\)。注意到\(a_{ij}+a_{ji}\)相同的二次函数也相同,由此我们只需关注对称双线性函数,即要求\(a_{ij}=a_{ji}\)。反之每个\(n\)元二次其次函数(9)都可以对应到一个对称矩阵,这两者可以看出是等价的,一般称之为\(n\)元二次型。
\[f(x_1,\cdots,x_n)=\sum_{i=1}^n{a_{ii}x_i^2}+\sum_{1\leqslant i<j\leqslant n}{2a_{ij}x_ix_j}=[x_1,\cdots,x_n]\begin{bmatrix}a_{11}&\cdots&a_{1n}\\\vdots&\ddots&\vdots\\a_{n1}&\cdots&a_{nn}\end{bmatrix}\begin{bmatrix}x_1\\\vdots\\x_n\end{bmatrix}\tag{9}\]
既然二次型是对称双线性函数的一个特殊值,对称矩阵的所有结论就可以直接用在二次型上。首先对称矩阵有合同矩阵\(PAP'=B\),对应到二次型就是说,如果将\(X=[x_1,\cdots,x_n]\)非退化线性替换为\(Y=[y_1,\cdots,y_n]=XP\),将得到关于\(y_i\)的二次型,而它的矩阵就是\(B\)。非退化线性替换是可逆的,替换前后的二次型等价,所以可以用合同标准型的结论来化简二次型。由于对称矩阵存在对角化的合同矩阵,故二次型也可以通过非退化线性替换转换为只含平方项的简单二次型(公式(10)),它也称为二次型的标准型,标准型的非零项数也称为二次型的秩。
\[XAX'=YBY'=d_1y_1^2+\cdots+d_ry_r^2,\quad (Y=XP,\:r=\text{rank}\,A)\tag{10}\]
具体到实数域中,我们可以有二次型的更简洁形式(11),而在复数域中有形式(12)。这样的标准型是唯一的,它们又称为规范型。实数域二次型中同样可以定义正定、负定等概念,并且有惯性定律,这里不作赘述。在实数域中,由公式(8)可知,存在以正交矩阵\(P\)为替换矩阵的正交替换,得到另外一个标准型(13),它的系数是\(A\)的所有特征值。
\[YAY'=y_1^2+\cdots+y_p^2-y_{p+1}^2-\cdots-y_{p+q}^2,\quad (p+q=\text{rank}\,A,\:all\:in\,\Bbb{R})\tag{11}\]
\[YAY'=y_1^2+y_2^2+\cdots+y_r^2,\quad (r=\text{rank}\,A,\:all\:in\,\Bbb{C})\tag{12}\]
\[YAY'=\lambda_1y_1^2+\lambda_2y_2^2+\cdots+\lambda_ny_n^2,\quad (Y=XP,\,all\:in\,\Bbb{R})\tag{13}\]
2.2 求解标准型
那么在具体问题中,如何将二次型标准化呢?又如何求得替换矩阵\(P\)呢?先来看看如何标准化,标准化就是要转变为平方项之和,而说到平方其实大家都熟悉配方法。如果二次型没有平方项,则任意选定一个非零项,比如是\(a_{12}x_1x_2=0\),先用\(y_1+y_2,y_1-y_2\)替换\(x_1,x_2\)得到非零的平方项。有了平方项后(比如是\(a_{11}x_1^2\)),将二次型整理为关于\(x_1\)的二次函数(14),并对其进行配方。配方后的余项显然是关于\(x_2,\cdots,x_n\)的二次型,这个过程可以递归下去,直到所有项都是平方项。记录配方和替换的过程,也可以得到替换矩阵\(P\)。
\[a_{11}x_1^2+2(a_{12}+\cdots+a_{1n})x_1+\sum_{i=2}^n{a_{ii}x_i^2}+\sum_{2\leqslant i<j\leqslant n}{2a_{ij}x_ix_j}\tag{14}\]
配方法虽然直观,但不便于机械化操作,尤其是替换矩阵的计算比较麻烦。回看合同表达式\(PAP'=B\),由于可逆矩阵\(P\)可以分解为一系列初等矩阵的乘积,从而考虑到使用类似初等变换的方法得到标准型和替换矩阵。初等变换的转置有式(15)的关系,它们共同作用于矩阵的两侧,其实是对矩阵在行、列方向做了对称的操作,这个共同作用称为初等行列变换。使用初等行列变换的同时,对\(I\)做对应的初等行变换,当把\(A\)转换为\(B\)时,\(I\)也被变换为了\(P\)。
\[P(i,j(c))'=P(j,i(c)),\quad P(i,j)'=P(i,j),\quad P(i(c))'=P(i(c))\tag{15}\]
以上对矩阵的初等行列变换同样适用于分块矩阵,容易验证对于分块对称矩阵可有式(16)成立,其中\(A\)可逆对称方阵,\(B\)为对称方阵。配方法和初等变换法并不仅适用于二次型,它同样适用于求对称矩阵(对称双线性函数)的合同标准型以及其转换矩阵。
\[\begin{bmatrix}A&C'\\C&B\end{bmatrix}\:\cong\:\begin{bmatrix}A&0\\0&B-CA^{-1}C'\end{bmatrix}\tag{16}\]
2.3 正定判别法
表达式符号的判定在数学中很常见,因此式正定(负定)矩阵的判定是比较重要的。最简单的判别方法当然是求得标准型(11),或者由公式(13)可知,实对称矩阵正定(负定)的充要条件是:矩阵的特征值都是正数(负数)。这两种方法都有一定的计算量,且过于精确,有没有更简单的方法呢?正定二次型要求对任意子空间都是正定的,那么矩阵的任意主子式的行列式都应当大于\(0\),这是正定矩阵的必要条件。由于合同矩阵的正定性保持不变,所以矩阵正定的充要条件是它有一个合同的正定矩阵。
考虑式(17)左边的矩阵,如果它是正定的,则\(A_{n-1}\)必是可逆的。根据公式(16)知它合同于右边的矩阵。矩阵正定的充要条件是\(A_{n-1}\)正定,并且\(a_{nn}-\alpha A_{n-1}^{-1}\alpha'>0\)。而后一个条件可以换成\(A\)的行列式大于\(0\),并且这个条件可以递归下去。如果把\(A_k\)(对角元为\(a_{11},\cdots,a_{kk}\)的主子式)称为\(A\)的\(k\)阶顺序主子式,那么\(A\)正定的充要条件是:\(A\)的所有顺序主子式都大于\(0\)。
\[\begin{bmatrix}A_{n-1}&\alpha'\\\alpha&a_{nn}\end{bmatrix}\:\cong\:\begin{bmatrix}A_{n-1}&0\\0&a_{nn}-\alpha A_{n-1}^{-1}\alpha'\end{bmatrix}\tag{17}\]
2.4 Hermite型
在内积空间中,可定义类似二次型的函数(式(18)),它被称为Hermite型。由公式(8)可知,存在以酉矩阵\(P\)为替换矩阵的酉替换,使得Hermite型有标准型(19)。式(19)的系数是\(A\)的所有特征值,都为实数,从而Hemite型的值也总为实数。
\[f(x_1,\cdots,x_n)=[x_1,\cdots,x_n]\begin{bmatrix}a_{11}&\cdots&a_{1n}\\\vdots&\ddots&\vdots\\a_{1n}&\cdots&a_{nn}\end{bmatrix}\begin{bmatrix}\overline{x_1}\\\vdots\\\overline{x_n}\end{bmatrix}\tag{18}\]
\[f(x_1,\cdots,x_n)=\lambda_1y_1\overline{y_1}+\lambda_2y_2\overline{y_2}+\cdots+\lambda_ny_n\overline{y_n},\quad (Y=XP)\tag{19}\]
Hermite型同样可以定义正定(负定)的概念,且易知正定(负定)的充要条件是其矩阵特征值皆为正数(负数)。当\(A\)正定时,既有\(PA\overline{P'}=\text{diag}\,\{\lambda_1,\cdots,\lambda_n\}\),等式两边分别左乘和右乘\(D_0=\text{diag}\,\{\sqrt{\lambda_1},\cdots,\sqrt{\lambda_n}\}\),便有\((D_0P)A\overline{(D_0P)'}=I\),从而对正定Hermite矩阵有式(20)成立。
\[A=Q\overline{Q'},\quad (|Q|\ne 0)\tag{20}\]
另外,类似实对称正定矩阵的判定条件,也可以证明Hermite矩阵正定的充要条件是:它的所有顺序主子式都大于\(0\),请自行论证。
【全篇完】