Hermite 矩阵及其特征刻画
将学习到什么
矩阵 \(A\) 与 \(\dfrac{1}{2}(A+A^T)\) 两者生成相同的二次型,而后面那个矩阵是对称的,这样以来,为了研究实的或者复的二次型,就只需要研究由对称矩阵生成的二次型.
基本概念
定义1: 矩阵 \(A=[a_{ij}] \in M_n\) 称为 Hermite 的,如果 \(A=A^*\);它是斜 Hermite 的,如果 \(A=-A^*\).
对于 \(A,B \in M_n\),可得出很多简单明了的结论:
(1) \(A+A^*\), \(AA^*\) 以及 \(A^*A\) 都是 Hermite 的
(2) 如果 \(A\) 是 Hermite 的,那么对所有 \(k=1,2,3,\cdots\), \(A^k\) 都是 Hermite 的. 如果 \(A\) 还是非奇异的,那么 \(A^{-1}\) 是 Hermite 的
(3) \(A-A^*\) 是斜 Hermite 的
(4) 如果 \(A\) 是 Hermite 的,那么 \(\mathrm{i}A\) 是斜 Hermite 的;如果 \(A\) 是斜 Hermite 的,那么 \(\mathrm{i}A\) 是 Hermite 的
(5) \(A=\dfrac{1}{2}(A+A^*)+\dfrac{1}{2}(A-A^*)=H(A)+S(A)=H(A)+\mathrm{i}K(A)\), 其中 \(H(A)=\dfrac{1}{2}(A+A^*)\) 是 \(A\) 的 Hermite 部分,\(S(A)=\dfrac{1}{2}(A-A^*)\) 是 \(A\) 的 斜 Hermite 部分,而 \(K(A)=\dfrac{1}{2\mathrm{i}}(A-A^*)\)
(6) 如果 \(A=C+\mathrm{i}D\), 其中 \(C,D \in M_n(\mathbb{R})\)(\(A\) 的实部与虚部),那么 \(A\) 是 Hermite 的,当且仅当 \(C\) 是对称的,且 \(D\) 是斜对称的
(7) 实对称矩阵是复的 Hermite 矩阵
定理1:(Toeplitz 分解) 每个 \(A\in M_n\) 都可以用唯一的方式写成 \(A=H+\mathrm{i}K\), 其中 \(H\) 与 \(K\) 两者都是 Hermite 矩阵. 它还可以用唯一的方式写成 \(A=H+S\),其中 \(H\) 是 Hermite 的,且 \(S\) 是斜 Hermite 的
证明:由上述结论中第 (5) 条即可得出. 至于唯一性,如果令 \(A=E+\mathrm{i}F\), 其中 \(E\) 与 \(F\) 皆为 Hermite 的,那么
\begin{align}
2H=A+A^* =(E+\mathrm{i}F)+(E+\mathrm{i}F)^* =E+\mathrm{i}F+E*-\mathrm{i}F* =2E
\end{align}
所以 \(E=H\). 类似地有 \(F=K\).
前述结论提示我们,诚如每个复数 \(z\) 可以唯一地写成 \(z=s+\mathrm{i} t\) 一样(其中 \(s,t \in \mathbb{R}\)), 每一个复矩阵也可以用唯一的方式写成 \(A=H+\mathrm{i}K\)(其中 \(H\) 与 \(K\) 是 Hermite 矩阵). 还有一些进一步的性质强化了这种类似.
定理2: 设 \(A\in M_n\) 是 Hermite 的. 那么
(a) \(x^*Ax\) 对所有 \(x \in \mathbb{C}^n\) 都是实的.
(b) \(A\) 的特征值都是实的
(c) 对所有 \(S \in M_n\), \(S^*AS\) 都是 Hermite 的
定理3: 设给定 \(A=[a_{ij}]\in M_n\). 那么 \(A\) 是 Hermite 的,当且仅当以下诸条件中至少一条满足:
(a) 对所有 \(x \in \mathbb{C}^n\), \(x^*Ax\) 都是实的
(b) \(A\) 是正规的且有实的特征值
(c) 对所有 \(S \in M_n\), \(S^*AS\) 都是 Hermite 的
证明:必要性由定理 2 说明,只需证明充分性。
(a) 如果对所有 \(x \in \mathbb{C}^n\), \(x^*Ax\) 都是实的,那么对所有 $x,y\in \mathbb{C}^n $, \((x+y)^*A(x+y)=(x^*Ax+y^*Ay)+(x^*Ay+y^*Ax)\) 是实的. 由于根据假设 \(x^*Ax\) 与 \(y^*Ay\) 是实的,我们就断定:对所有 $x,y\in \mathbb{C}^n $, \(x^*Ay+y^*Ax\) 是实的. 如果我们选取 \(x=e_k\) 以及 \(y=e_j\), 那么 \(x^*Ay+y^*Ax=a_{kj}+a_{jk}\) 是实的,所以 \(\mathrm{Im} \,a_{kj}=-\mathrm{Im} \,a_{jk}\). 如果我们选取 \(x=\mathrm{i} e_k\) 以及 \(y=e_j\), 那么 \(x^*Ay+y^*Ax=-\mathrm{i}a_{kj}+\mathrm{i}a_{jk}\) 是实的,所以 \(\mathrm{Re} \,a_{kj}=\mathrm{Re} \,a_{jk}\). 所以 \(a_{kj}=\bar{a}_{jk}\), 又因为 \(j,k\) 是任意的,我们就得出结论 \(A=A^*\).
(b) 如果 \(A\) 是正规的,那么可以酉对角化,所以 \(A=U\Lambda U^*\), 其中 \(\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n)\). 一般来说,我们有 \(A^*=U\bar{\Lambda} U^*\), 但如果 \(\Lambda\) 是实的,我们就有 \(A^*=U\Lambda U^*=A\).
(c) 条件 (c) 蕴含 \(A\) 是 Hermite 的(选取 \(S=I\))
由于 Hermite 矩阵都是正规的,所以有关正规矩阵的所有结果都适用于 Hermite 矩阵. 例如,与不同特征值相伴的特征向量是正交的,存在一组由特征向量组成的标准正交基以及 Hermite 矩阵可以酉对角化.下面复述关于 Hermite 矩阵的谱定理.
定理4: 矩阵 \(A \in M_n\) 是 Hermite 的,当且仅当存在一个酉矩阵 \(U \in M_n\) 以及一个实的对角矩阵 \(\Lambda \in M_n\), 使得 \(A=U\Lambda U^*\). 此外, \(A\) 是实的 Hermite 矩阵(即实对称矩阵),当且仅当存在一个实正交矩阵 \(P \in M_n\) 以及一个实对角矩阵 \(\Lambda \in M_n\), 使得 \(A=P\Lambda P^T\).
尽管 Hermite 矩阵的实线性组合恒为 Hermite 矩阵,但是 Hermite 矩阵的复线性组合不一定是 Hermite 矩阵. 此外,如果 \(A\) 与 \(B\) 是 Hermite 矩阵,那么 \((AB)^*=B^*A^*=BA\), 所以 \(AB\) 是 Hermite 矩阵,当且仅当 \(A\) 与 \(B\) 可交换.
关于可交换的 Hermite 矩阵的一个最有名的结果如下:
定理5: 设 \(\mathcal{F}\) 是一个给定的非空的 Hermite 矩阵族. 则存在一个酉矩阵 \(U\) 使得对所有 \(A \in \mathcal{F}\), \(UAU^*\) 都是对角矩阵的充分必要条件是,对所有 \(A,B \in \mathcal{F}\) 都有 \(AB=BA\).
推广
对于 Hermite 矩阵 \(A\) 有 \(A=A^*\), 推广这一概念的一种方法是考虑使得 \(A\) 相似于 \(A^*\) 的矩阵类. 如下的定理拓广了推论1,并用若干种方式刻画了这个矩阵类的特征.
定理6: 设给定 \(A \in M_n\), 则如下诸命题等价:
(a) \(A\) 与一个实矩阵相似
(b) \(A\) 与 \(A^*\) 相似
(c) \(A\) 通过一个 Hermite 相似变换与 \(A^*\) 相似
(d) \(A=HK\), 其中 \(H,K \in M_n\) 是 Hermite 矩阵,且至少有一个因子是非奇异的
(e) \(A=HK\), 其中 \(H,K \in M_n\) 是 Hermite 矩阵
证明:首先注意 (a) 与 (b) 是等价的:每一个复矩阵都与它的转置相似,所以,\(A\) 相似于 \(A^*=\bar{A}^T\) 当且仅当 \(A\) 相似于 \(\bar{A}\), 当且仅当 \(A\) 相似于一个实矩阵.
为验证 (b) 蕴含 (c),假设存在一个非奇异的 \(S \in M_n\), 使得 \(S^{-1}AS=A^*\). 设 \(\theta \in \mathbb{R}\), 并令 \(T=\mathrm{e}^{\mathrm{i}\theta} S\). 注意到 \(T^{-1}AT=A^*\), 这样一来,就有 \(AT=TA^*\) 或者 \(AT^*=T^*A^*\). 将这两个等式相加就得到 \(A(T+T^*)=(T+T^*)A^*\). 如果 \(T+T^*\) 是非奇异的,我们就能断言 \(A\) 与 \(A^*\) 通过 Hermite 矩阵 \(T+T^*\) 而相似,所以就只需要证明存在某个 \(\theta\), 使得 \(T+T^*\) 是非奇异的. 矩阵 \(T+T^*\) 是非奇异的,汉且仅当 \(T^{-1}(T+T^*)=I+T^{-1}T^*\) 是非奇异的,当且仅当 \(-1 \notin \sigma(T^{-1}T^*)\). 但是 \(T^{-1}T^*=\mathrm{e}^{-2\mathrm{i}\theta} S^{-1}S^*\), 所以我们可以选取满足 \(-\mathrm{e}^{-2\mathrm{i}\theta} \notin \sigma(S^{-1}S^*)\) 的任何 \(\theta\).
现在假设 (c) 成立,并记 \(R^{-1}AR=A^*\), 其中 \(R \in M_n\) 是非奇异的 Hermite 矩阵. 那么 \(R^{-1}A=A^*R^{-1}\) 且 \(A=R(A^*R^{-1})\). 但是 \((A^*R^{-1})^*=R^{-1}A=A^*R^{-1}\), 所以 \(A\) 是两个 Hermite 矩阵 \(R\) 与 \(A^*R^{-1}\) 的乘积,且 \(R\) 是非奇异的.
如果 \(A=HK\), 其中 \(H,K \in M_n\) 是 Hermite 矩阵,且 \(H\) 是非奇异的,那么 \(H^{-1}AH=KH=(HK)^*=A^*\). 如果 \(K\) 是非奇异的,则讨论类似. 于是 (d) 等价于 (b).
(d) 肯定蕴含 (e), 现在来证明 (c) 蕴含 (a). 如果 \(A=HK\), 其中 \(H\) 与 \(K\) 是 Hermite 矩阵且两者都是奇异的,考虑 \(U^*AU=(U^*HU)(U^*KU)\), 其中 \(U \in M_n\) 是酉矩阵,\(U^*HU=\begin{bmatrix} D & 0\\ 0 & 0 \end{bmatrix}\), 且 \(D \in M_k\) 是非奇异的实对角矩阵. 与 \(U^*HU\) 共形地分划 \(U^*KU=\begin{bmatrix} K & \bigstar \\ \bigstar & \bigstar \end{bmatrix}\), 并计算
\begin{align}
U*AU=(U*HU)(U^*KU)= \begin{bmatrix} D & 0\\ 0 & 0 \end{bmatrix} \begin{bmatrix} K' & \bigstar \\ \bigstar & \bigstar \end{bmatrix}=\begin{bmatrix} DK' & \bigstar \\ 0 & 0 \end{bmatrix} \notag
\end{align}
分块 \(DK' \in M_k\) 是两个 Hermite 矩阵的乘积,其中一个是非奇异的,所以 (d) 、(b) 以及 (a) 的等价性确保它与一个实矩阵相似. 现在先前推论告诉我们 \(U^*AU\)(从而 \(A\) 也) 与一个实矩阵相似.
定理 2 中的 (a) 可以通过考虑只取正(或者非负)值的 Hermite 型予以改进.
定理7: 设给定 \(A \in M_n\), 那么对所有的 \(x \in \mathbb{C}^n\), \(x^*Ax\) 是正实数(\(x^*Ax\) 是非负实数)的充分必要条件是:\(A\) 是 Hermite 矩阵且它所有的特征值都是正的(非负的).
证明: 必要性:定理 2 中的 (a) 已经确保 \(A\) 是 Hermite 矩阵,此外,假设 \(\mu \in \mathbb{C}^n\) 是 \(A\) 的与特征值 \(\lambda\) 相伴的特征向量,那么就有 \(\lambda =\mu^*(\lambda \mu)=\mu^* A \mu\), 由假设条件就知 \(\lambda >0\)(或 \(\lambda \geqslant 0\)). 充分性:如果 \(A\) 是 Hermite 矩阵,且只有正的(非负的)特征值,那么定理 4 就确保 \(A=U \Lambda U^*\), 其中酉矩阵 \(U=[u_1\cdots u_n]\) 的列是 \(A\) 的与 \(\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_n)\) 的正的(非负的)对角元素相伴的特征向量. 这样 \(x^*Ax=x^*U\Lambda U^*x=(U^*x)^*\Lambda (U^*x)=\sum\limits_{k=1}^n \lambda_k \lvert u_k^*x \rvert ^2\) 总是非负的;如果所有 \(\lambda_k>0\) 且有某个 \(\mu_k^* \neq 0\), 那么它是正的,而 \(x \neq 0\) 肯定就是这种情形.
定义2: 矩阵 \(A \in M_n\) 是正定的,如果对于所有非零的 \(x \in \mathbb{C}^n\), \(x^*Ax\) 都是正实数;它是半正定的,如果对于所有非零的 \(x \in \mathbb{C}^n\), \(x^*Ax\) 都是非负实数;它是不定的,如果对于所有非零的 \(x \in \mathbb{C}^n\), \(x^*Ax\) 都是实数,且存在非零向量 \(y,z \in \mathbb{C}^n\), 使得 \(y^*Ay <0 <z^*Az\).
设 \(A \in M_n\) 以及 \(B=A^*A\), 注意到 \(x^*Bx= \lVert Ax \rVert _2^2\), 所以 \(B\) 是半正定的. 这表明:复矩阵是正定的(半定的),当且仅当它是 Hermite 的,且它所有的特征值都是正的(非负的). 所以在定义 2 中,不需要事先假设 \(A\) 是 Hermite 的,但是对于实的矩阵以及它们所生成的实的二次型,情形就有所不同. 如果 \(A \in M_n(\mathbb{R})\) 且 \(x \in \mathbb{C}^n\), 那么 \(x^TAx=\dfrac {1}{2} x^T (A+A^T)\), 所以,对所有的非零的 \(x \in \mathbb{R}^n\) 有 \(X^TAx>0\) 或者 \(x^TAx \geqslant 0\) 这一假设仅仅是在 \(A\) 的对称部分上附加了一个条件,它的斜对称部分并未受到限制. 所以定义 2 实的情形的类似结果必须将一个对称性假设加入进去.
定理8: 设 \(A \in M_n(\mathbb{R})\) 是对称的. 那么对所有的非零的 \(x \in \mathbb{C}^n\), 有 \(x^*Ax>0\)(\(x^*Ax \geqslant 0\)), 当且仅当 \(A\) 的每一个特征值都是正的(非负的).
证明: 由于 \(A\) 是 Hermite 的,故而只要证明下述结论就够了:只要 \(z=x+\mathrm{i}y \in \mathbb{C}^n\), 其中 \(x,y \in \mathbb{R}^n\), 且 \(x,y\) 中至少一个不为零,就有 \(z^*Az >0 (z^*Az \geqslant 0)\). 由于 \((y^TAx)^T=x^TAy\), 我们有
\begin{align}
z^*Az &=(x+\mathrm{i}y)*A(x+\mathrm{i}y)=xTAx+yTAy+\mathrm{i}(xTAy-y^TAx) \notag \\
&=xTAx+yTAy \notag
\end{align}
它是正的(非负的),如果 \(x\) 与 \(y\) 至少一个不为零.
定义3: 矩阵 \(A \in M_n(\mathbb{R})\) 是正定的,如果对于所有非零的 \(x \in \mathbb{R}^n\), \(x^TAx>0\);它是半正定的,如果对于所有非零的 \(x \in \mathbb{R}^n\), \(x^TAx \geqslant 0\);它是不定的,如果存在向量 \(y,z \in \mathbb{R}^n\), 使得 \(y^TAy <0 <z^TAz\).
显然如果半正定的矩阵是正定的,当且仅当它是非奇异的. 有关 Herimte 矩阵的最后一个一般性的结论是: \(A \in M_n\) 是 Hermite 的,当且仅当它可以写成 \(A=B-C\), 其中 $B,C \in M_n $ 是半正定的. 这一结论有一半是显然的,另一半则依赖于下面的定义.
定义4: 设 \(A \in M_n\) 是 Hermite 矩阵,\(\lambda_1 \geqslant \cdots \geqslant \lambda_n\) 是它的按照非增次序排列的特征值. 设 \(\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_n)\), 又令 \(U \in M_n\) 是酉矩阵,它使得 \(A=U \Lambda U^*\). 设 \(\lambda_i^+=\max \{\lambda_i,0\}\) 以及 \(\lambda_i^- =\min \{\lambda_i,0\}\)(两者都对 \(i=1,\cdots,n\) 定义). 设 \(\Lambda_+=\mathrm{diag}(\lambda_1^+,\cdots,\lambda_n^+)\) 以及 \(A_+=U\Lambda_+U^*\), 令 \(\Lambda_-=\mathrm{diag}(\lambda_1^-,\cdots,\lambda_n^-)\) 以及 \(A_-=-U\Lambda_-U^*\). 矩阵 \(A_+\) 称为 \(A\) 的半正定的部分.
命题1:设 \(A \in M_n\) 是 Hermite 矩阵. 那么 \(A=A_+-A_-\), \(A_+\) 与 \(A_-\) 中的每一个都是半正定的,\(A_+\) 与 \(A_-\) 可交换,\(\mathrm{rank}\,A=\mathrm{rank}\,A_+ + \mathrm{rank}\,A_-\), \(A_+A_-=A_-A_+=0\), 且 \(A_-\) 是 \(-A\) 的半正定部分.
应该晓得什么
- (Toeplitz 分解) 每个 \(A\in M_n\) 都可以用唯一的方式写成 \(A=H+\mathrm{i}K\) 或 \(A=H+S\)
- Hermite 矩阵特征值是实的
- 对所有 \(x \in \mathbb{C}^n\), \(x^*Ax\) 是实的,等价于说 \(A\) 是 Hermite 的
- \(A\) 是正规的且有实特征值,则 \(A\) 是 Hermite 的