么正矩阵(酉矩阵)

本文的阅读等级：中级

一实(或复) 正交矩阵(orthogonal matrix) $Q$ 是一个实(或复) 方阵满足

$Q^TQ=QQ^T=I$ ，

即 $Q^{-1}=Q^T$ 。写出 $n\times n$ 阶实正交矩阵的行向量(column vector) 表达， $Q=\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_n \end{bmatrix}$ ，则 $(Q^TQ)_{ij}=\mathbf{q}_i^T\mathbf{q}_j=(I)_{ij}$ ，矩阵乘积 $Q^TQ$ 的 $(i,j)$ 元等于 $\mathbf{q}_i$ 与 $\mathbf{q}_j$ 的内积。因此， $\mathbf{q}_i^T\mathbf{q}_j=\delta_{ij}=0$ 若 $i\neq j$ ， $\mathbf{q}_i^T\mathbf{q}_j=\delta_{ij}=1$ 若 $i=j$ 。换句话说，实正交矩阵 $Q$ 的行向量 $\{\mathbf{q}_1,\ldots,\mathbf{q}_n\}$ 是向量空间 $\mathbb{R}^n$ 的一组单范正交基底(orthonormal basis)，单范表示归一， $\mathbf{q}_i$ 是单位向量，正交意味 $\mathbf{q}_i$ 垂直 $\mathbf{q}_j$ 。不过，复正交矩阵的行向量并非 $\mathbb{C}^n$ 的一个单范正交集，因为两个复向量 $\mathbf{x}$ 与 $\mathbf{y}$ 的内积定义为 $\mathbf{x}^\ast\mathbf{y}=\overline{\mathbf{x}}^T\mathbf{y}$ (见“ 内积的定义 ”)。如欲将实正交矩阵推广至复矩阵，将转置改为共轭转置。一么正矩阵(酉矩阵，unitary matrix) $U$ 是一个复方阵满足

$U^\ast U=UU^\ast=I$ ，

即 $U^{-1}=U^\ast$ 。同样地，设 $U=\begin{bmatrix} \mathbf{u}_1&\cdots&\mathbf{u}_n \end{bmatrix}$ ，则 $(U^\ast U)_{ij}=\mathbf{u}_i^\ast\mathbf{u}_j=(I)_{ij}$ 。么正矩阵的行向量 $\{\mathbf{u}_1,\ldots,\mathbf{u}_n\}$ 是向量空间 $\mathbb{C}^n$ 的一组单范正交基底。例如，

$U=\begin{bmatrix} \displaystyle\frac{1+i}{2}&\displaystyle\frac{1+i}{2}\\[0.8em] \displaystyle\frac{1-i}{2}&\displaystyle\frac{-1+i}{2} \end{bmatrix}$ ，

其中 $i=\sqrt{-1}$ 。因为 $(U^\ast)^\ast=U$ ，若 $U$ 是一么正矩阵，则 $U^\ast$ 也是么正矩阵。所以，么正矩阵 $U$ 的共轭列向量(row vector) 构成 $\mathbb{C}^n$ 的一个单范正交集(事实上， $U$ 的列向量即构成单范正交集，因为 $\overline{U}^\ast\,\overline{U}=\overline{U}\,\overline{U}^\ast=I$ ， $\overline{U}$ 也是么正矩阵)。类似地，实正交矩阵 $Q$ 的列向量构成 $\mathbb{R}^n$ 的一个单范正交集。在一般情况下，么正矩阵与复正交矩阵是不同的，但实么正矩阵与实正交矩阵是相同的。所以，么正矩阵的所有性质皆可套用于实正交矩阵。

么正矩阵出现于许多矩阵分解式，举两个例子。第一是矩阵三角化的Schur 定理：任一方阵 $A$ 可分解为 $A=UTU^\ast$ ，其中 $U$ 是一么正矩阵， $T$ 是上三角矩阵(见“ 矩阵三角化的Schur定理 ”)。第二是正规矩阵(normal matrix) 的么正对角化(unitarily diagonalizable)：若 $A$ 为一正规矩阵， $A^\ast A=AA^\ast$ ，则存在一么正矩阵 $U$ 使得 $A=U\Lambda U^\ast$ ，其中 $\Lambda$ 为一对角矩阵(见“ 特殊矩阵(2)：正规矩阵 ”)。事实上，可么正对角化是正规矩阵的一个充要条件。

以下令 $U$ 为一 $n\times n$ 阶么正矩阵，所有的性质都是由定义式得来。

性质1 .向量的长度不因么正变换而改变，即每一 $\mathbf{x}\in\mathbb{C}^n$ ，

$\Vert U\mathbf{x}\Vert=\Vert\mathbf{x}\Vert$ 。

性质1说明么正变换是一个保长((length-preserving) 变换。使用定义式，

$\Vert U\mathbf{x}\Vert^2=(U\mathbf{x})^{\ast}(U\mathbf{x})=\mathbf{x}^{\ast}U^{\ast}U\mathbf{x}=\mathbf{x}^{\ast}I\mathbf{x}=\mathbf{x}^\ast\mathbf{x}=\Vert\mathbf{x}\Vert^2$ 。

反过来说，若所有向量 $\mathbf{x}\in\mathbb{C}^n$ 都满足 $\Vert U\mathbf{x}\Vert=\Vert\mathbf{x}\Vert$ ，平方后整理可得 $\mathbf{x}^\ast (U^\ast U-I)\mathbf{x}=0$ ，可知 $(U^\ast U-I)\mathbf{x}=\mathbf{0}$ ，并推得 $U^\ast U-I=0$ 。所以，保长是么正矩阵的一个充要条件。

性质2 .两向量的内积不因么正变换而改变，即任何 $\mathbf{x},\mathbf{y}\in\mathbb{C}^n$ ，

$(U\mathbf{x})^\ast(U\mathbf{y})=\mathbf{x}^\ast\mathbf{y}$ 。

性质2说明么正变换具有内积不变性。使用定义式，

$(U\mathbf{x})^{\ast}(U\mathbf{y})=\mathbf{x}^{\ast}U^{\ast}U\mathbf{y}=\mathbf{x}^{\ast}I\mathbf{y}=\mathbf{x}^{\ast}\mathbf{y}$ 。

将上式的 $\mathbf{y}$ 替换为 $\mathbf{x}$ ，性质2可推得性质1。所以，内积不变性是么正矩阵的另一个充要条件。

性质3 .么正矩阵的特征值之绝对值为 $1$ 。

假设 $U\mathbf{x}=\lambda\mathbf{x}$ ，等号两边同时取向量长度。利用性质1，等号左边为 $\Vert U\mathbf{x}\Vert=\Vert\mathbf{x}\Vert$ ，但等号右边为 $\Vert\lambda\mathbf{x}\Vert=\vert\lambda\vert \cdot\Vert\mathbf{x}\Vert$ ，所以 $\vert\lambda\vert=1$ ，换句话说，么正矩阵的特征值可表示为 $\lambda=e^{i\theta}$ 。

性质4 .么正矩阵 $U$ 可么正对角化， $U=VDV^\ast$ ，其中 $V$ 是一么正矩阵， $D=\hbox{diag}(\lambda_1,\ldots,\lambda_n)$ 。

么正矩阵 $U$ 满足 $U^\ast U=UU^\ast$ ，因此属于正规矩阵家族，本身也可被么正对角化。下面介绍 $U$ 对应相异特征值的特征向量互为正交的一个证明。假设非零向量 $\mathbf{x}$ 与 $\mathbf{y}$ 使得 $U\mathbf{x}=\lambda_1\mathbf{x}$ ， $U\mathbf{y}=\lambda_2\mathbf{y}$ ，且 $\lambda_1\neq\lambda_2$ 。使用性质2，

$\mathbf{x}^{\ast}\mathbf{y}=(U\mathbf{x})^{\ast}(U\mathbf{y})=(\lambda_1\mathbf{x})^{\ast}(\lambda_2\mathbf{y})=(\overline{\lambda_1}\lambda_2)(\mathbf{x}^{\ast}\mathbf{y})$ 。

比较等号两边，推得 $\overline{\lambda_1}\lambda_2=1$ 或 $\mathbf{x}^{\ast}\mathbf{y}=0$ 。使用性质三，令 $\lambda_1=e^{i\theta_1}$ ，则 $\overline{\lambda_1}\lambda_1=e^{-i\theta_1}e^{i\theta_1}=1$ 。但已知 $\lambda_1$ 不等于 $\lambda_2$ ，推论 $\overline{\lambda_1}\lambda_2\neq 1$ ，证明 $\mathbf{x}$ 正交于 $\mathbf{y}$ 。

性质5 .么正矩阵 $U$ 的行列式为 $\vert\det U\vert=1$ 。

根据性质3， $U$ 的特征值满足 $\vert\lambda_i\vert=1$ 。行列式等于特征值之积，故 $\vert\det U\vert=\vert \lambda_1\cdots\lambda_n\vert=\vert\lambda_1\vert\cdots\vert\lambda_n\vert=1$ 。另一个作法计算

$\det(U^\ast U)=(\det \overline{U^T})(\det U)=(\overline{\det U^T})(\det U)=(\overline{\det U})(\det U)=\vert\det U\vert^2$ ，

但 $\det(U^\ast U)=\det I=1$ ，所以 $\vert\det U\vert=1$ 。

对于一实正交矩阵 $Q$ ， $\det Q$ 为实数，由性质5可知 $\det Q=\pm 1$ 。据此，实正交矩阵可以区分为两类：若 $\det Q=1$ ，则 $Q$ 称为适当的(proper) 的正交矩阵；若 $\det Q=-1$ ，则 $Q$ 称为不适当的正交矩阵。令 $R(\theta)$ 是平面上逆时针旋转角为 $\theta$ 的旋转矩阵， $F(\phi)$ 是平面上以 $\begin{bmatrix} \cos\phi\\ \sin\phi \end{bmatrix}$ 为镜射轴指向的镜射矩阵，公式如下(见“ 几何变换矩阵的设计 ”)：

$R(\theta)=\left[\!\!\begin{array}{cr} \sin\theta&-\cos\theta\\ \cos\theta&\sin\theta \end{array}\!\!\right],~~F(\phi)=\left[\!\!\begin{array}{cr} \cos 2\phi&\sin 2\phi\\ \sin 2\phi&-\cos 2\phi \end{array}\!\!\right]$ 。

因为 $\det R(\theta)=\cos^2\theta+\sin^2\theta=1$ ，平面旋转是适当的正交矩阵。另一方面， $\det F(\phi)=-(\cos^2 2\phi+\sin^2 2\phi)=-1$ ，平面镜射是不适当的正交矩阵(见“ 旋转与镜射 ”)。平面旋转与镜射是保长变换，提示我们这两种矩阵是实正交矩阵。

最后补充一个么正矩阵的充分条件：假设 $n\times n$ 阶矩阵 $A$ 的特征值 $\lambda$ 满足 $\vert\lambda\vert=1$ 。若每一 $\mathbf{x}\in\mathbb{C}^n$ 使得 $\Vert A\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert$ ，则 $A$ 是一个么正矩阵(见“ 每周问题July 6, 2015 ”)。注解提供两个证明：第一个证明使用奇异值分解^[1] ，第二个证明使用矩阵三角化的Schur定理^[2] 。

注解
[1] 令 $A$ 的特征值为 $\lambda_1,\ldots,\lambda_n$ ，奇异值为 $\sigma_1,\ldots,\sigma_n\ge 0$ 。给定的不等式等价于

$\displaystyle \Vert A\Vert_2=\max_{\Vert\mathbf{x}\Vert\neq\mathbf{0}}\frac{\Vert A\mathbf{x}\Vert}{\Vert\mathbf{x}\Vert}=\sigma_{\max}\le 1$ ，

其中 $\sigma_{\max}=\max_{1\le i\le n}\sigma_i$ 。令 $A$ 的奇异值分解为 $A=U\Sigma V^\ast$ ，其中 $\Sigma=\text{diag}(\sigma_1,\ldots,\sigma_n)$ 且 $U^\ast U=V^\ast V=I$ 。使用恒等式 $\det(A^\ast A)=\vert\det A\vert^2$ ，又 $\det(A^\ast A)=\det(\Sigma^\ast\Sigma)=\sigma_1^2\cdots\sigma_n^2$ 且 $\det A=\lambda_1\cdots\lambda_n$ ，推得 $\sigma_1\cdots\sigma_n=\vert \lambda_1\cdots\lambda_n\vert=\vert\lambda_1\vert\cdots\vert\lambda_n\vert=1$ 。但 $\sigma_{\max}\le 1$ ，可知 $\sigma_1=\cdots=\sigma_n=1$ 。因此， $A=U\Sigma V^\ast=UIV^\ast=UV^\ast$ ，即知 $A^\ast A=VU^\ast UV^\ast=I$ ，证明 $A$ 是一么正矩阵。

[2] 根据Schur 定理，写出 $A=UTU^\ast$ ，其中 $U$ 是么正矩阵， $T=[t_{ij}]$ 是上三角矩阵，主对角元为 $A$ 的特征值 $\lambda_1,\ldots,\lambda_n$ ，每一 $\vert\lambda_i\vert=1$ 。考虑 $\mathbf{x}=U\mathbf{e}_n$ ，其中 $\mathbf{e}_n=(0,\ldots,0,1)^T$ 是第 $n$ 个标准单位向量，则 $\Vert\mathbf{x}\Vert=\Vert U\mathbf{e}_n\Vert=(\mathbf{e}_n^\ast U^\ast U\mathbf{e}_n)^{1/2}=1$ 。我们得到

$\displaystyle \Vert A\mathbf{x}\Vert=\Vert UTU^\ast U\mathbf{e}_n\Vert=\Vert UT\mathbf{e}_n\Vert=\Vert T\mathbf{e}_n\Vert=\left(\vert t_{1n}\vert^2+\cdots+\vert t_{n-1,n}\vert^2+\vert\lambda_n\vert^2\right)^{1/2}$ 。

对于单位向量 $\mathbf{x}$ ，给定条件等价于 $\Vert A\mathbf{x}\Vert\le 1$ ，再有 $\vert\lambda_n\vert=1$ ，使得 $t_{in}=0$ ， $1\le i\le n-1$ 。套用归纳法，重复上述步骤令 $\mathbf{x}=U\mathbf{e}_j$ ， $j=n-1,n-2,\ldots,2$ ，可推论 $T$ 是一个对角矩阵满足 $T^\ast T=I$ (因为 $\overline{\lambda_i}\lambda_i=\vert\lambda_i\vert^2=1$ )。所以，

$A^\ast A=UT^\ast U^\ast UTU^\ast=UT^\ast TU^\ast=UU^\ast =I$ 。

赏月斋

慎终如始宁静致远

公告

赏月斋

慎终如始 宁静致远

么正矩阵(酉矩阵)

公告

慎终如始宁静致远