正交性

向量、子空间的正交

对于向量$v,w \in \mathbb{R}^n$，设$v=(x_1,\cdots,x_n),w=(y_1,\cdots,y_n)$，定义他们的内积$v \cdot w=\sum\limits_{i=1}^{n}x_iy_i$。

如果有$v,w$的内积为0（$v \cdot w=0$），那么称这两个向量是正交的，记作$v \bot w$。

向量可以看作一维的矩阵，因此在矩阵运算中，向量的正交写作$v^{\top} w=0$，即$v$作为矩阵的转置矩阵与$w$矩阵做矩阵乘法得到一个$1 \times 1$的矩阵，这个矩阵唯一的那个元素就是0。这样做的好处在于，如果$v$本身是两个矩阵（比如$n \times m$和$m \times 1$）的乘积，那么转置的运算法则也可以应用在$v^{\top} $上。

对于$\mathbb{R}^n$中的两个子空间$V,W$，如果满足对于任意$v \in V, w \in W$都有$v \cdot w=0$，那么称这两个子空间是正交的，记作$V \bot W$。注意，子空间的正交与几何中的垂直不太一样。比如，三维空间中两个过原点的互相“垂直”的平面，它们并不是正交的——各自取一条在交线上的向量就可以说明这两个向量内积并不为0。事实上，如果两个子空间有交集（零向量除外），那么我们就可以取这条向量，$v \cdot w$就变成了$v \cdot v$，由于$v$不为0，因此内积一定大于零，因此一定不互相垂直。正交的子空间是不能有交集的（0除外）。

设$V$的一组基为$\{v_1,v_2,\cdots,v_m\}$，$W$的一组基为$\{w_1,w_2,\cdots,w_s\}$。我们发现，$V$与$W$正交当且仅当$v_i$与$w_j$两两正交。充分性：由于$v_i \in V，w_j \in W$，根据子空间正交的定义就有$v_i \bot w_j$。必要性：把向量用基向量线性表示，应用向量内积的分配律展开一定得到0。

向量、子空间上的投影

对于二维和三维空间的投影我们已经很熟悉了。而对于$\mathbb{R}^m$，如何来定义投影？

类比低维空间的情形情形，对于向量$a,b \in \mathbb{R}^m$，$b$在$a$上的投影$p$应当满足$(b-p) \bot a$。令$p=c\vec{a}$。由$a^{\top} (b-ca)=0$可以解得$c=\dfrac{a^{\top} b}{a^{\top} a}$。

由于$c\vec{a}=\vec{a}c$，我们发现$p=\dfrac{a^{\top} b}{a^{\top} a}a=\dfrac{(a^{\top} b)a}{a^{\top} a}=\dfrac{a(a^{\top} b)}{a^{\top} a}=\dfrac{aa^{\top} }{a^{\top} a}b$，其中$\dfrac{aa^{\top} }{a^{\top} a}$与$b$无关，是一个$n \times n$的矩阵，称为投影矩阵$P$。这个投影矩阵乘在任何一个向量上就得到这个向量在$a$上的投影向量，即$p=Pb$。

在向量上的投影本质上是在一维子空间上的投影。而对于一般的子空间，向量$b \in \mathbb{R}^m$在子空间$V$上的投影$p$也只应当满足$(b-p) \bot V$。取$V$的一组基$a_1,a_2,\cdots,a_n$组成矩阵$A=\begin{bmatrix}a_1 & a_2 & \cdots & a_n\end{bmatrix}$，由于$p \in V$，$p$一定是这些基的一个线性组合，令$\hat{x}=(x_1,x_2,\cdots,x_n)$，那么可以写作$p=A\hat{x}$。这个$\hat{x}$就是线性组合的系数。

根据子空间正交与基正交的等价性，$(b-p) \bot V$等价于$a_i^{\top} (b-A\hat{x})=0$恒成立。而这又等价于$A^{\top} (b-A\hat{x})=0$。因此$A^{\top} b=A^{\top} A\hat{x}$。假如$A^{\top} A$可逆，那么就能解出$\hat{x}=(A^{\top} A)^{-1}A^{\top} b$，于是$p=A\hat{x}=A(A^{\top} A)^{-1}A^{\top} b$。此时，投影矩阵$P=A(A^{\top} A)^{-1}A^{\top}$。当$A$的列数为1时，它正好退化为向量的投影矩阵（其中$1 \times 1$矩阵的逆是它的倒数）。

下面来证明$A^{\top} A$一定是可逆的。注意到$A_{m \times n}$有一个重要性质——它一定是列满秩的，即$\text{rank}(A)=n$。由于$A^{\top} A$是$n \times n$的，我们想要证明的其实就是$\text{rank}(A^{\top} A)=n$。

事实上，我们可以有一个更一般的结论：对于任意的一般的矩阵$A$都有$\text{rank}(A)=\text{rank}(A^\top A)$。更进一步，其实有$N(A)=N(A^\top A)$，即它们的零空间是完全相同的。Pf：考虑$\forall x \in N(A)$，$Ax=0$，因此一定有$A^\top A x = 0$，所以$x \in N(A^\top A)$；$\forall x \in N(A^\top A)$，$A^\top A x=0$，因此一定有$x^\top A^\top A x=0$，即$(Ax)^2=0$，因此$Ax=0$，所以$x \in N(A)$。那么根据Fundamental Theorem，它们具有一样的列宽度，所以既然他们零空间维数相同，它们的列空间维数也必须相同，因此秩相等。

投影矩阵$P_{m \times m}$本身有一些性质：

一个向量被投影两次一定与被投影一次的结果相同，因此有$P^2=P$（也可以直接代入$A(A^{\top} A)^{-1}A^{\top}$验证）；

$P^{\top} =(A(A^{\top} A)^{-1}A^{\top} )^{\top}$$=A((A^{\top} A)^{-1})^{T}A^{\top}$$=A(A^{\top} A)^{-1}A^{\top} =P$，因此任何投影矩阵一定是对称矩阵；

我们可以从“距离最短”的角度来看投影：投影$p$是子空间里到$b$距离最小的向量。即$\forall u \in V$，$||b-u||$取到最小值当且仅当$u=p$。证明很容易，$(b-u)^2$$=(b-p+p-u)^2=(b-p)^2+(p-u)^2+2(b-p)(p-u)$。而因为$p-u \in V$，所以$(b-p) \bot (p-u)$。所以$(b-u)^2=(b-p)^2+(p-u)^2+0$，因此当且仅当$u = p$时取得最小值。

对于一个子空间，我们对$A$的选择是多样的。而直觉上，投影矩阵$P$应当是唯一的。怎么来证明这种唯一性呢？首先我们发现，从“距离最短”的角度来看投影，最小值只在一个唯一向量处取到，这个最小值就是$p$。这是因为对于任意的$A$，$p$都有唯一的表示，而一旦$p$被表示就与基的选取无关了，它一定是空间里唯一的一个向量（从线性映射的角度看，任何基下的坐标映射的逆映射作用在$p$上都对应着向量空间中唯一的一个向量，可以用基变换矩阵说明这一点）。对于确定的$b$，这个$p$一定是唯一的。如果存在另一个投影矩阵$P'$，那么对于任意的$b$都有$p=Pb=P'b$。即$(P-P')b=0$对于任意$b$恒成立，必须有$P-P'=0$，即$P=P'$。

投影矩阵相同也可以反过来推出子空间相同：$A(A^{\top} A)^{-1}A^{\top} =B(B^{\top} B)^{-1}B^{\top}$可以推出$C(A)=C(B)$。我们知道$v \in C(A)$当且仅当$P_1v=v$，$v \in C(B)$当且仅当$P_2v=v$。而$P_1=P_2$，因此$P_1v=v$当且仅当$P_2v=v$。所以$v \in C(A)$当且仅当$v \in C(B)$，所以$C(A)=C(B)$。

有一个称为“最小二乘法”的方法可以求无解线性方程组的最优近似解。对于线性方程组$Ax=b$，假如$b \notin C(A)$，那么方程组无解。我们定义“最优”的近似解是使得$||b-x||$取到最小值的$x$。而我们已经看到，这个最小值就是$||b-p||$。因此对于$p=A\hat{x}$，$\hat{x}$就是我们的“最小二乘解”。假如$A$是列满秩的，那么我们已经得到了$p=Pb=A(A^{\top} A)^{-1}A^{\top} b$。由于$p$是由$A$的列向量线性组合出来的，根据基向量表示的性质，$\hat{x}$是唯一的，就有$\hat{x}=(A^{\top} A)^{-1}A^{\top} b$。问题在于，$A$可能不是列满秩的。而事实上，求最小二乘解就是求投影，我们只关心$C(A)$而不关心$A$的具体情况。我们可以找到$C(A)$的一组基构成$A'$，那么就直接能得到答案$\hat{x}=(A'^{\top} A')^{-1}A'^{\top} b$。（后面我们还将看到，利用奇异值分解，还可以用伪逆矩阵来求解最小二乘法问题）

正交基

考虑这样一个矩阵$A_{m \times n}=\begin{bmatrix}a_1 & a_2 & \cdots & a_n\end{bmatrix}$，其中$a_i,a_j$非零且两两正交。

一个重要的事实是，我们可以证明$a_1,a_2,\cdots,a_n$是线性独立的：$c_1a_1+c_2a_2+\cdots+c_na_n=0$当且仅当$a_i=0$恒成立。给等式两边同时乘以$a_i$，那么得到$c_ia_i^2=0$，由于$a_i \neq 0$，因此必定有$c_i=0$。$i$可以取$1$到$n$的所有值，因此$c_i$必须全为0。这意味着，两两正交是一个比线性独立更强的条件。

于是我们注意到，$\{a_1,a_2,\cdots,a_n\}$构成了$\mathbb{R}^m$中$C(A)$的一组基，称为一组“正交基”。更特殊的，假如这些向量都是单位向量$\{q_1,q_2,\cdots,q_n\}$，那么就构成了一组“标准正交基”。

任何一个子空间$A$都是有正交基的。我们归纳地构造这组基$q_i$。我们有$A$的一组基$\{a_1,a_2,\cdots,a_n\}$。首先，令$q_1=a_1$。归纳地假设已经构造出$\text{span}(\{q_1,q_2,\cdots,q_k\})=$$\text{span}(\{a_1,a_2,\cdots,a_k\})$，$q_i$两两正交。根据基的定义，一定有$a_{k+1} \notin \text{span}(\{a_1,a_2,\cdots,a_k\})$。那么，设$a_{k+1}$在子空间$\text{span}(\{q_1,q_2,\cdots,q_k\})$上的投影为$p_{k+1}$，那么就有$(a_{k+1}-p_{k+1})\bot q_i$恒成立，于是令$q_{k+1}=a_{k+1}-p_{k+1}$，就有$q_1$到$q_{k+1}$就是两两正交（$q_{k+1} \neq 0$）。同时，$q_{k+1}$由$a_{k+1}$和$p_{k+1}$组合而成，而$p_{k+1}$由$q_1 \cdots q_k$组合而成。也就是说$a_{k+1}$可以用$q_1 \cdots q_{k+1}$替换。$q_{k+1}$也可以用$a_1 \cdots a_{k+1}$替换。因此一定有$\text{span}(\{q_1,q_2,\cdots,q_{k+1}\})$$=\text{span}(\{a_1,a_2,\cdots,a_{k+1}\})$。最终，我们就得到了$A$的正交基$\{q_1,q_2,\cdots,q_n\}$。这个过程称为Gram-Schmidt正交化。让所有$q_i$缩成单位向量，我们就可以说，任何一个子空间都有标准正交基。

这给了我们启发。既然任何一个子空间都有“标准正交基”，那么我们在投影的时候，不妨就选择$Q$来代替一般的矩阵$A$。其中$Q=\begin{bmatrix}q_1 & q_2 & \cdots & q_n\end{bmatrix}$。那么$p=Pb=Q(Q^{\top} Q)^{-1}Q^{\top} b$。观察$Q^{\top} Q$，我们发现$Q^{\top} Q(i,i)=q_i \cdot q_i=1$,$Q^{\top} Q(i,j)=q_i \cdot q_j=0$。因此$Q^{\top} Q=I$。于是表达式变得非常简洁，直接有$p=QQ^{\top} b$，根据分块矩阵的运算性质$p=\begin{bmatrix}q_1 & \cdots q_n\end{bmatrix}\begin{bmatrix}q_1^\top b \\ \vdots \\ q_n^\top b\end{bmatrix}=q_1q_1^{\top} b+\cdots+q_nq_n^{\top} b$。而由于$||q_i||=1$，这其实表示$q_iq_i^{\top} b=\dfrac{q_iq_i^{\top} }{q_i^{\top} q_i}b$，这正是$b$在$q_i$上的投影！

也就是说，$b$的投影等于$b$在各个标准正交基上的投影的向量和。当$b$落在子空间内时，$p=b=\sum\dfrac{q_iq_i^{\top} }{q_i^{\top} q_i}b$，说明$b$本身就等于它在各个标准正交基上的投影的向量和——这就是我们熟悉的“正交分解”！对于一般的基，各个投影会互相干扰，而正交的投影是可以各自独立的。

选择标准正交基极大简便了计算。$P=A(A^{\top} A)^{-1}A^{\top}$简化为了$P=QQ^{\top} $，$p=\sum\dfrac{q_iq_i^{\top} }{q_i^{\top} q_i}b$简化为了$p=\sum q_iq_i^{\top} b$。

“$Q$是标准正交基构成的矩阵”与“$Q^{\top} Q=I$”是充要的。我们已经证明了充分性，而必要性也是显然的：$q_i^{\top} q_j=0$得知列向量两两正交，$q_i^{\top} q_i=1$得知所有向量均为单位向量。

正交矩阵

注意标准正交基构成的矩阵$Q$一般不是方阵，不是方阵就不能有逆矩阵。假如$Q$是$n \times n$的，它就被称为“正交矩阵”。正交矩阵一定指方阵。它由$n$个两两垂直的$\mathbb{R}^n$中的单位向量构成。由于$Q$的列线性独立，因此$Q$可逆。由上面的论证知道“$Q$是正交矩阵”与“$Q^{\top} Q=I$”是充要的。由$Q^{\top} Q=I$可得$Q^{-1}=Q $，即正交矩阵的转置就是它的逆矩阵。而$(Q^{-1}) Q^{-1}$$=(Q)^{\top} Q^{\top} $$=(QQ^{-1}) =I$，因此$Q^{{-1}$也是正交矩阵。这说明了$Q} $也是正交矩阵，即正交矩阵的行向量也是两两正交的单位向量。

有很多矩阵是正交矩阵。用来旋转向量的“旋转矩阵”是正交矩阵，初等行变换中的“排列矩阵”是正交矩阵，镜面反射的“对称矩阵”是正交矩阵……观察普遍性，我们发现正交矩阵有一种“保内积性”：$Qx \cdot Qy=x \cdot y$。因为$(Qx)^{\top} Qy=x^{\top} Q^{\top} Qy=x^{\top} y$。当$x,y$是同一个向量时，“保内积”退化为了“保模长”，即$(Qx)^2=x^2$，推出$||Qx||=||x||$。旋转、置换、对称都是不改变被作用的向量的长度的。

正交补空间

对于$\mathbb{R}^n$中一个子空间$V$，我们把$\mathbb{R}^n$中所有与$V$正交的向量收集在一起形成一个集合。我们发现，这个集合是一个子空间：对于$u_1 \bot V,u_2 \bot V$，一定有$(u_1+u_2) \bot V$，也有$cu_1 \bot V$。这个子空间就称为$V$的正交补空间，记作$V^\bot$。

根据Gram-Schmidt正交化，我们一定可以找到$V$的一组标准正交基$v_1,\cdots,v_k$。根据Steinitz Exchange Lemma，我们可以把这组基扩张为整个$\R^n$的标准正交基$v_1,\cdots,v_k,v_{k+1},\cdots,v_n$，并且我们可以认为$V$就是$\text{span}\{v_1,\cdots,v_k\}$。

观察$\text{span}\{v_{k+1},\cdots,v_{n}\}$，其中的任何一个向量都正交于$V$。而任何一个与$V$正交的向量$w$都可以写成基的表示$w=c_1v_1+\cdots+c_kv_k+c_{k+1}v_{k+1}+\cdots+c_nv_n$，等式两边依次与$v_{1..k}$做内积就得到$w \cdot v_i=c_iv_i^2$，即$0=c_i$，因此$c_1,\cdots,c_k$都为0，因此一定有$w=c_{k+1}v_{k+1}+\cdots+c_nv_n$，即$w \in \text{span}\{w_{k+1},\cdots,w_n\}$。

任何一个与$V$正交的向量都落在$\text{span}\{v_{k+1},\cdots,v_{n}\}$中，而$\text{span}\{v_{k+1},\cdots,v_{n}\}$中任何一个向量都与$V$正交，因此$\text{span}\{v_{k+1},\cdots,v_{n}\}$就是$V$的正交补空间。$V$的正交补就是$V$的正交基的“补基”张成的空间。

对于矩阵$A_{m \times n}$，$A$的行空间的正交补是零空间。首先，行空间和零空间都是$\R^n$中的子空间。因为行空间的任意向量都可以表示成行向量的线性组合，而零空间中的任意向量都与每一个行向量正交，由内积的乘法分配律，我们得到零空间中的每个向量都落在行空间的正交补当中。而对于一个零空间以外的向量，满足$Ax \neq 0$，即至少存在一个行向量与这个向量的内积不为0，因此这个向量与行空间一定不是正交的。所以零空间和行空间是互补的。在之后的奇异值分解中，这一点会体现得更加清晰。

posted @ 2022-11-05 23:59 DennyQi 阅读(543) 评论(0) 编辑收藏举报

刷新页面返回顶部

行而上

To The Things Themselves

正交性

正交性

向量、子空间的正交

向量、子空间上的投影

正交基

正交矩阵

正交补空间