正交性
正交性
向量、子空间的正交
对于向量\(v,w \in \mathbb{R}^n\),设\(v=(x_1,\cdots,x_n),w=(y_1,\cdots,y_n)\),定义他们的内积\(v \cdot w=\sum\limits_{i=1}^{n}x_iy_i\)。
如果有\(v,w\)的内积为0(\(v \cdot w=0\)),那么称这两个向量是正交的,记作\(v \bot w\)。
向量可以看作一维的矩阵,因此在矩阵运算中,向量的正交写作\(v^{\top} w=0\),即\(v\)作为矩阵的转置矩阵与\(w\)矩阵做矩阵乘法得到一个\(1 \times 1\)的矩阵,这个矩阵唯一的那个元素就是0。这样做的好处在于,如果\(v\)本身是两个矩阵(比如\(n \times m\)和\(m \times 1\))的乘积,那么转置的运算法则也可以应用在$v^{\top} $上。
对于\(\mathbb{R}^n\)中的两个子空间\(V,W\),如果满足对于任意\(v \in V, w \in W\)都有\(v \cdot w=0\),那么称这两个子空间是正交的,记作\(V \bot W\)。注意,子空间的正交与几何中的垂直不太一样。比如,三维空间中两个过原点的互相“垂直”的平面,它们并不是正交的——各自取一条在交线上的向量就可以说明这两个向量内积并不为0。事实上,如果两个子空间有交集(零向量除外),那么我们就可以取这条向量,\(v \cdot w\)就变成了\(v \cdot v\),由于\(v\)不为0,因此内积一定大于零,因此一定不互相垂直。正交的子空间是不能有交集的(0除外)。
设\(V\)的一组基为\(\{v_1,v_2,\cdots,v_m\}\),\(W\)的一组基为\(\{w_1,w_2,\cdots,w_s\}\)。我们发现,\(V\)与\(W\)正交当且仅当\(v_i\)与\(w_j\)两两正交。充分性:由于\(v_i \in V,w_j \in W\),根据子空间正交的定义就有\(v_i \bot w_j\)。必要性:把向量用基向量线性表示,应用向量内积的分配律展开一定得到0。
向量、子空间上的投影
对于二维和三维空间的投影我们已经很熟悉了。而对于\(\mathbb{R}^m\),如何来定义投影?
类比低维空间的情形情形,对于向量\(a,b \in \mathbb{R}^m\),\(b\)在\(a\)上的投影\(p\)应当满足\((b-p) \bot a\)。令\(p=c\vec{a}\)。由\(a^{\top} (b-ca)=0\)可以解得\(c=\dfrac{a^{\top} b}{a^{\top} a}\)。
由于\(c\vec{a}=\vec{a}c\),我们发现\(p=\dfrac{a^{\top} b}{a^{\top} a}a=\dfrac{(a^{\top} b)a}{a^{\top} a}=\dfrac{a(a^{\top} b)}{a^{\top} a}=\dfrac{aa^{\top} }{a^{\top} a}b\),其中\(\dfrac{aa^{\top} }{a^{\top} a}\)与\(b\)无关,是一个\(n \times n\)的矩阵,称为投影矩阵\(P\)。这个投影矩阵乘在任何一个向量上就得到这个向量在\(a\)上的投影向量,即\(p=Pb\)。
在向量上的投影本质上是在一维子空间上的投影。而对于一般的子空间,向量\(b \in \mathbb{R}^m\)在子空间\(V\)上的投影\(p\)也只应当满足\((b-p) \bot V\)。取\(V\)的一组基\(a_1,a_2,\cdots,a_n\)组成矩阵\(A=\begin{bmatrix}a_1 & a_2 & \cdots & a_n\end{bmatrix}\),由于\(p \in V\),\(p\)一定是这些基的一个线性组合,令\(\hat{x}=(x_1,x_2,\cdots,x_n)\),那么可以写作\(p=A\hat{x}\)。这个\(\hat{x}\)就是线性组合的系数。
根据子空间正交与基正交的等价性,\((b-p) \bot V\)等价于\(a_i^{\top} (b-A\hat{x})=0\)恒成立。而这又等价于\(A^{\top} (b-A\hat{x})=0\)。因此\(A^{\top} b=A^{\top} A\hat{x}\)。假如\(A^{\top} A\)可逆,那么就能解出\(\hat{x}=(A^{\top} A)^{-1}A^{\top} b\),于是\(p=A\hat{x}=A(A^{\top} A)^{-1}A^{\top} b\)。此时,投影矩阵\(P=A(A^{\top} A)^{-1}A^{\top}\)。当\(A\)的列数为1时,它正好退化为向量的投影矩阵(其中\(1 \times 1\)矩阵的逆是它的倒数)。
下面来证明\(A^{\top} A\)一定是可逆的。注意到\(A_{m \times n}\)有一个重要性质——它一定是列满秩的,即\(\text{rank}(A)=n\)。由于\(A^{\top} A\)是\(n \times n\)的,我们想要证明的其实就是\(\text{rank}(A^{\top} A)=n\)。
事实上,我们可以有一个更一般的结论:对于任意的一般的矩阵\(A\)都有\(\text{rank}(A)=\text{rank}(A^\top A)\)。更进一步,其实有\(N(A)=N(A^\top A)\),即它们的零空间是完全相同的。Pf:考虑\(\forall x \in N(A)\),\(Ax=0\),因此一定有\(A^\top A x = 0\),所以\(x \in N(A^\top A)\);\(\forall x \in N(A^\top A)\),\(A^\top A x=0\),因此一定有\(x^\top A^\top A x=0\),即\((Ax)^2=0\),因此\(Ax=0\),所以\(x \in N(A)\)。那么根据Fundamental Theorem,它们具有一样的列宽度,所以既然他们零空间维数相同,它们的列空间维数也必须相同,因此秩相等。
投影矩阵\(P_{m \times m}\)本身有一些性质:
一个向量被投影两次一定与被投影一次的结果相同,因此有\(P^2=P\)(也可以直接代入\(A(A^{\top} A)^{-1}A^{\top}\)验证);
\(P^{\top} =(A(A^{\top} A)^{-1}A^{\top} )^{\top}\)\(=A((A^{\top} A)^{-1})^{T}A^{\top}\)\(=A(A^{\top} A)^{-1}A^{\top} =P\),因此任何投影矩阵一定是对称矩阵;
我们可以从“距离最短”的角度来看投影:投影\(p\)是子空间里到\(b\)距离最小的向量。即\(\forall u \in V\),\(||b-u||\)取到最小值当且仅当\(u=p\)。证明很容易,\((b-u)^2\)\(=(b-p+p-u)^2=(b-p)^2+(p-u)^2+2(b-p)(p-u)\)。而因为\(p-u \in V\),所以\((b-p) \bot (p-u)\)。所以\((b-u)^2=(b-p)^2+(p-u)^2+0\),因此当且仅当\(u = p\)时取得最小值。
对于一个子空间,我们对\(A\)的选择是多样的。而直觉上,投影矩阵\(P\)应当是唯一的。怎么来证明这种唯一性呢?首先我们发现,从“距离最短”的角度来看投影,最小值只在一个唯一向量处取到,这个最小值就是\(p\)。这是因为对于任意的\(A\),\(p\)都有唯一的表示,而一旦\(p\)被表示就与基的选取无关了,它一定是空间里唯一的一个向量(从线性映射的角度看,任何基下的坐标映射的逆映射作用在\(p\)上都对应着向量空间中唯一的一个向量,可以用基变换矩阵说明这一点)。对于确定的\(b\),这个\(p\)一定是唯一的。如果存在另一个投影矩阵\(P'\),那么对于任意的\(b\)都有\(p=Pb=P'b\)。即\((P-P')b=0\)对于任意\(b\)恒成立,必须有\(P-P'=0\),即\(P=P'\)。
投影矩阵相同也可以反过来推出子空间相同:\(A(A^{\top} A)^{-1}A^{\top} =B(B^{\top} B)^{-1}B^{\top}\)可以推出\(C(A)=C(B)\)。我们知道\(v \in C(A)\)当且仅当\(P_1v=v\),\(v \in C(B)\)当且仅当\(P_2v=v\)。而\(P_1=P_2\),因此\(P_1v=v\)当且仅当\(P_2v=v\)。所以\(v \in C(A)\)当且仅当\(v \in C(B)\),所以\(C(A)=C(B)\)。
有一个称为“最小二乘法”的方法可以求无解线性方程组的最优近似解。对于线性方程组\(Ax=b\),假如\(b \notin C(A)\),那么方程组无解。我们定义“最优”的近似解是使得\(||b-x||\)取到最小值的\(x\)。而我们已经看到,这个最小值就是\(||b-p||\)。因此对于\(p=A\hat{x}\),\(\hat{x}\)就是我们的“最小二乘解”。假如\(A\)是列满秩的,那么我们已经得到了\(p=Pb=A(A^{\top} A)^{-1}A^{\top} b\)。由于\(p\)是由\(A\)的列向量线性组合出来的,根据基向量表示的性质,\(\hat{x}\)是唯一的,就有\(\hat{x}=(A^{\top} A)^{-1}A^{\top} b\)。问题在于,\(A\)可能不是列满秩的。而事实上,求最小二乘解就是求投影,我们只关心\(C(A)\)而不关心\(A\)的具体情况。我们可以找到\(C(A)\)的一组基构成\(A'\),那么就直接能得到答案\(\hat{x}=(A'^{\top} A')^{-1}A'^{\top} b\)。(后面我们还将看到,利用奇异值分解,还可以用伪逆矩阵来求解最小二乘法问题)
正交基
考虑这样一个矩阵\(A_{m \times n}=\begin{bmatrix}a_1 & a_2 & \cdots & a_n\end{bmatrix}\),其中\(a_i,a_j\)非零且两两正交。
一个重要的事实是,我们可以证明\(a_1,a_2,\cdots,a_n\)是线性独立的:\(c_1a_1+c_2a_2+\cdots+c_na_n=0\)当且仅当\(a_i=0\)恒成立。给等式两边同时乘以\(a_i\),那么得到\(c_ia_i^2=0\),由于\(a_i \neq 0\),因此必定有\(c_i=0\)。\(i\)可以取\(1\)到\(n\)的所有值,因此\(c_i\)必须全为0。这意味着,两两正交是一个比线性独立更强的条件。
于是我们注意到,\(\{a_1,a_2,\cdots,a_n\}\)构成了\(\mathbb{R}^m\)中\(C(A)\)的一组基,称为一组“正交基”。更特殊的,假如这些向量都是单位向量\(\{q_1,q_2,\cdots,q_n\}\),那么就构成了一组“标准正交基”。
任何一个子空间\(A\)都是有正交基的。我们归纳地构造这组基\(q_i\)。我们有\(A\)的一组基\(\{a_1,a_2,\cdots,a_n\}\)。首先,令\(q_1=a_1\)。归纳地假设已经构造出\(\text{span}(\{q_1,q_2,\cdots,q_k\})=\)\(\text{span}(\{a_1,a_2,\cdots,a_k\})\),\(q_i\)两两正交。根据基的定义,一定有\(a_{k+1} \notin \text{span}(\{a_1,a_2,\cdots,a_k\})\)。那么,设\(a_{k+1}\)在子空间\(\text{span}(\{q_1,q_2,\cdots,q_k\})\)上的投影为\(p_{k+1}\),那么就有\((a_{k+1}-p_{k+1})\bot q_i\)恒成立,于是令\(q_{k+1}=a_{k+1}-p_{k+1}\),就有\(q_1\)到\(q_{k+1}\)就是两两正交(\(q_{k+1} \neq 0\))。同时,\(q_{k+1}\)由\(a_{k+1}\)和\(p_{k+1}\)组合而成,而\(p_{k+1}\)由\(q_1 \cdots q_k\)组合而成。也就是说\(a_{k+1}\)可以用\(q_1 \cdots q_{k+1}\)替换。\(q_{k+1}\)也可以用\(a_1 \cdots a_{k+1}\)替换。因此一定有\(\text{span}(\{q_1,q_2,\cdots,q_{k+1}\})\)\(=\text{span}(\{a_1,a_2,\cdots,a_{k+1}\})\)。最终,我们就得到了\(A\)的正交基\(\{q_1,q_2,\cdots,q_n\}\)。这个过程称为Gram-Schmidt正交化。让所有\(q_i\)缩成单位向量,我们就可以说,任何一个子空间都有标准正交基。
这给了我们启发。既然任何一个子空间都有“标准正交基”,那么我们在投影的时候,不妨就选择\(Q\)来代替一般的矩阵\(A\)。其中\(Q=\begin{bmatrix}q_1 & q_2 & \cdots & q_n\end{bmatrix}\)。那么\(p=Pb=Q(Q^{\top} Q)^{-1}Q^{\top} b\)。观察\(Q^{\top} Q\),我们发现\(Q^{\top} Q(i,i)=q_i \cdot q_i=1\),\(Q^{\top} Q(i,j)=q_i \cdot q_j=0\)。因此\(Q^{\top} Q=I\)。于是表达式变得非常简洁,直接有\(p=QQ^{\top} b\),根据分块矩阵的运算性质\(p=\begin{bmatrix}q_1 & \cdots q_n\end{bmatrix}\begin{bmatrix}q_1^\top b \\ \vdots \\ q_n^\top b\end{bmatrix}=q_1q_1^{\top} b+\cdots+q_nq_n^{\top} b\)。而由于\(||q_i||=1\),这其实表示\(q_iq_i^{\top} b=\dfrac{q_iq_i^{\top} }{q_i^{\top} q_i}b\),这正是\(b\)在\(q_i\)上的投影!
也就是说,\(b\)的投影等于\(b\)在各个标准正交基上的投影的向量和。当\(b\)落在子空间内时,\(p=b=\sum\dfrac{q_iq_i^{\top} }{q_i^{\top} q_i}b\),说明\(b\)本身就等于它在各个标准正交基上的投影的向量和——这就是我们熟悉的“正交分解”!对于一般的基,各个投影会互相干扰,而正交的投影是可以各自独立的。
选择标准正交基极大简便了计算。\(P=A(A^{\top} A)^{-1}A^{\top}\)简化为了$P=QQ^{\top} \(,\)p=\sum\dfrac{q_iq_i^{\top} }{q_i^{\top} q_i}b\(简化为了\)p=\sum q_iq_i^{\top} b$。
“\(Q\)是标准正交基构成的矩阵”与“\(Q^{\top} Q=I\)”是充要的。我们已经证明了充分性,而必要性也是显然的:\(q_i^{\top} q_j=0\)得知列向量两两正交,\(q_i^{\top} q_i=1\)得知所有向量均为单位向量。
正交矩阵
注意标准正交基构成的矩阵\(Q\)一般不是方阵,不是方阵就不能有逆矩阵。假如\(Q\)是\(n \times n\)的,它就被称为“正交矩阵”。正交矩阵一定指方阵。它由\(n\)个两两垂直的\(\mathbb{R}^n\)中的单位向量构成。由于\(Q\)的列线性独立,因此\(Q\)可逆。由上面的论证知道“\(Q\)是正交矩阵”与“\(Q^{\top} Q=I\)”是充要的。由\(Q^{\top} Q=I\)可得$Q{-1}=Q \(,即正交矩阵的转置就是它的逆矩阵。而\)(Q{-1}) Q{-1}$$=(Q)^{\top} Q^{\top} $$=(QQ{-1}) =I\(,因此\)Q{-1}$也是正交矩阵。这说明了$Q $也是正交矩阵,即正交矩阵的行向量也是两两正交的单位向量。
有很多矩阵是正交矩阵。用来旋转向量的“旋转矩阵”是正交矩阵,初等行变换中的“排列矩阵”是正交矩阵,镜面反射的“对称矩阵”是正交矩阵……观察普遍性,我们发现正交矩阵有一种“保内积性”:\(Qx \cdot Qy=x \cdot y\)。因为\((Qx)^{\top} Qy=x^{\top} Q^{\top} Qy=x^{\top} y\)。当\(x,y\)是同一个向量时,“保内积”退化为了“保模长”,即\((Qx)^2=x^2\),推出\(||Qx||=||x||\)。旋转、置换、对称都是不改变被作用的向量的长度的。
正交补空间
对于\(\mathbb{R}^n\)中一个子空间\(V\),我们把\(\mathbb{R}^n\)中所有与\(V\)正交的向量收集在一起形成一个集合。我们发现,这个集合是一个子空间:对于\(u_1 \bot V,u_2 \bot V\),一定有\((u_1+u_2) \bot V\),也有\(cu_1 \bot V\)。这个子空间就称为\(V\)的正交补空间,记作\(V^\bot\)。
根据Gram-Schmidt正交化,我们一定可以找到\(V\)的一组标准正交基\(v_1,\cdots,v_k\)。根据Steinitz Exchange Lemma,我们可以把这组基扩张为整个\(\R^n\)的标准正交基\(v_1,\cdots,v_k,v_{k+1},\cdots,v_n\),并且我们可以认为\(V\)就是\(\text{span}\{v_1,\cdots,v_k\}\)。
观察\(\text{span}\{v_{k+1},\cdots,v_{n}\}\),其中的任何一个向量都正交于\(V\)。而任何一个与\(V\)正交的向量\(w\)都可以写成基的表示\(w=c_1v_1+\cdots+c_kv_k+c_{k+1}v_{k+1}+\cdots+c_nv_n\),等式两边依次与\(v_{1..k}\)做内积就得到\(w \cdot v_i=c_iv_i^2\),即\(0=c_i\),因此\(c_1,\cdots,c_k\)都为0,因此一定有\(w=c_{k+1}v_{k+1}+\cdots+c_nv_n\),即\(w \in \text{span}\{w_{k+1},\cdots,w_n\}\)。
任何一个与\(V\)正交的向量都落在\(\text{span}\{v_{k+1},\cdots,v_{n}\}\)中,而\(\text{span}\{v_{k+1},\cdots,v_{n}\}\)中任何一个向量都与\(V\)正交,因此\(\text{span}\{v_{k+1},\cdots,v_{n}\}\)就是\(V\)的正交补空间。\(V\)的正交补就是\(V\)的正交基的“补基”张成的空间。
对于矩阵\(A_{m \times n}\),\(A\)的行空间的正交补是零空间。首先,行空间和零空间都是\(\R^n\)中的子空间。因为行空间的任意向量都可以表示成行向量的线性组合,而零空间中的任意向量都与每一个行向量正交,由内积的乘法分配律,我们得到零空间中的每个向量都落在行空间的正交补当中。而对于一个零空间以外的向量,满足\(Ax \neq 0\),即至少存在一个行向量与这个向量的内积不为0,因此这个向量与行空间一定不是正交的。所以零空间和行空间是互补的。在之后的奇异值分解中,这一点会体现得更加清晰。