线性映射

线性映射

定义和性质

设我们有一个从线性空间\(V\)到线性空间\(W\)的映射\(T\),即\(\forall v \in V\)\(T(v) \in W\)。如果满足\(T(v+w)=T(v)+T(w),T(cv)=cT(v)\)对任意\(v,w \in V,c \in \R\)恒成立,就称\(T\)是一个\(V\)\(W\)的线性映射。

\(T(0)=0\),因为\(T(0)=T(0 \cdot v) = 0T(v)=0\)

\(T(cv+dw)=T(cv)+T(dw)=cT(v)+dT(w)\)

\(T(c_1v_1+\cdots+c_nv_n)=c_1T(v_1)+\cdots+c_nT(v_n)\)

这告诉我们,对一列向量:先做线性组合再映射,与先映射再做线性组合等价的。

基的映射决定线性映射

\(V\)\(W\)的线性映射是多种多样的。而我们意识到,只要确定了\(V\)的一组基映射的结果,就唯一确定了这个映射。

Pf: 设\(\{v_i\}\)\(V\)的一组基。那么\(T(v)=T(\sum\limits_{i \in [n]}c_iv_i)=\sum\limits_{i \in [n]}c_iT(v_i)\)。由于\(c_i\)是由\(v\)唯一确定的,那么只要确定\(T(v_i)\),就能确定任意\(T(v)\)

这意味着,我们只需要\(\dim(V)\)个向量就可以确定一个线性映射,这有点像线性空间中“基”的概念。事实上我们意识到,“所有\(V\)\(W\)的映射\(T\)”构成的一个“映射的集合”也是一个线性映射,只要我们定义\(T_1+T_2\)\((T_1+T_2)(v)=T_1(v)+T_2(v)\),定义\(cT\)\((cT)(v) = c\cdot T(v)\)

坐标

所谓坐标,就是为线性空间选定一组基用“一组系数”来表示一个向量。如果在\(V\)中选定一组基\(\{v_i\}\),那么任何\(v\)可以唯一地写作\(c_1v_1+\cdots+c_nv_n\),于是\((c_1,\cdots,c_n)\)就称为\(v\)的坐标。在基确定的前提下,坐标是描述向量的最直接的方式。

\((c_1,\cdots,c_n)\)本身也可以看作\(\R^n\)中的一个向量。可以证明,或者说显然,\(n\)维向量\(v\)\(n\)维向量\((c_1,\cdots,c_n)\)之间是双射的。我们可以进一步验证这是一个线性映射,这就是坐标映射,记作\(T_{\bar{v}}\),它把一个向量映射为其在基下对应的坐标向量。

如果选取不同的基\(\{v_i'\}\),坐标就会不同。我们想知道,如何通过这两组不同的基来得到这两个坐标映射之间的联系?答案是,仅仅需要乘一个矩阵。一定存在\(M\)使得\(T_{\bar{v}}(v)=MT_{\bar{v'}}(v)\)恒成立。

根据定义我们有\(v=\begin{bmatrix}v_1 & \cdots & v_n\end{bmatrix}T_{\bar{v}}(v)=\begin{bmatrix}v_1' & \cdots & v_n'\end{bmatrix}T_{\bar{v'}}(v)\)。那么只需证明一定存在\(M\)使得\(\begin{bmatrix}v_1 & \cdots & v_n\end{bmatrix}M=\begin{bmatrix}v_1' & \cdots & v_n'\end{bmatrix}\)。用矩阵乘法相当于列向量的线性组合来理解,只需写出如何用\(\{v_i\}\)线性组合出每个\(v'_i\)就可以得到\(M\),因此\(M\)一定是存在且唯一的。同时,如果把两组基的位置对调,那么一定可以重复一遍上述过程,也就能找到对应的矩阵\(M'\)。即\(\begin{bmatrix}v_1' & \cdots & v_n'\end{bmatrix}M'=\begin{bmatrix}v_1 & \cdots & v_n\end{bmatrix}\)。根据\(VM=V',V'M'=V\)联立,得到\(M=V'V^{-1},M'=V(V')^{-1}\),因此\(MM'=V'V^{-1}V(V')^{-1}=I\)\(M\)一定是可逆的,\(M'\)就是\(M^{-1}\)

这个矩阵就称为从\(\bar{v}\)\(\bar{v'}\)的基变换矩阵。

根据定义,要注意区分:

原先的基向量构成的矩阵右乘基变换矩阵就能得到新的基向量构成的矩阵,\(\begin{bmatrix}v_1 & \cdots & v_n\end{bmatrix}M=\begin{bmatrix}v_1' & \cdots & v_n'\end{bmatrix}\)

同时,变换后的坐标向量左乘及变换矩阵得到变换前的坐标向量,\(\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}=M\begin{bmatrix}x'_1\\x'_2\\\vdots\\x'_n\end{bmatrix}\)

矩阵与线性映射

我们容易验证对于矩阵\(A\)\(T(v)=Av\)是个线性映射,因为矩阵乘法的运算法则满足线性性。我们把这个映射记作\(T_A\)

显而易见的是,一个\(m\times n\)的矩阵可以看作一个从\(\R^n\)\(\R^m\)的线性映射。它对应着从满的一个空间映射到另一个满的空间。

下面我们要说明:任何两个向量空间(比如子空间)之间的线性映射本质上就是一个矩阵。

对于向量空间\(V,W\),设\(V\)有一组基\(\{v_{1..n}\}\)\(W\)有一组基\(\{w_{1..m}\}\)。我们知道只要确定\(T(v_i)\)就能确定\(T\),而根据\(W\)中基向量的唯一表示可以写出\(T(v_i)=\sum\limits_{j \in [m]}a_{ij}w_j\),系数\(a_{ij}\)唯一确定。\(a_{ij}\)能够构成\(n \times m\)的矩阵\(A\),其中\(A(i,j)=a_{ij}\)。而\(\forall v\)\(T(v)=T(\sum\limits_{i \in [n]}c_iv_i)=\sum\limits_{i \in [n]}c_iT(v_i)\)。代入就有\(T(v)=\sum\limits_{i \in [n]}c_i\left(\sum\limits_{j \in [m]}a_{ij}w_j\right)=\sum\limits_{j\in [m]}\left(\sum\limits_{i \in [n]}c_ia_{ij}\right)w_j\)。也就是说我们通过\(T(v)\)\(\{v_i\}\)基下的坐标\(c_i\)找到了其在\(\{w_i\}\)基下的坐标,记为\(d_i\)。那么通过上式得到\(d_j=\sum\limits_{i \in [n]}c_ia_{ij}\)。我们令矩阵\(A_T(i,j)=a_{ji}\),那么\(d_j=\sum\limits_{i \in [n]}A_T(j,i)c_i\),也即我们有坐标变换\(\begin{bmatrix}d_1 \\ \vdots \\ d_n\end{bmatrix}=A_T\begin{bmatrix}c_1 \\ \vdots \\ c_n\end{bmatrix}\)。因此所有线性映射在特定的坐标表示下就等价于乘以一个矩阵!

在这个过程,实际上发生了这样的事:一个\(V\)中的向量有一个坐标表示,其映射后的向量在\(W\)中也有一个坐标表示。而当我们观察(计算)这两个坐标的关系的时候,发现他们恰好满足矩阵乘法的运算法则。

如果基的选取是确定的,那么一旦\(T\)确定,\(A_T\)也确定;一旦\(A_T\)确定,那么\(T\)也确定。因此在基确定的前提下,线性映射与其对应的矩阵是双射的。另外,线性变换是可以复合的,而复合就是矩阵的乘法。

假如基变了,我们只需要联立矩阵映射的式子与基变换矩阵的式子就可以解出新的矩阵了。比如假如\(T\)\(V \to V\)的映射,选择两边都用\(\bar{v}\)作为基对应矩阵\(A_T\),选择两边都用\(\bar{v'}\)作为基对应矩阵\(B_T\)。假设某个向量\(v_0\)\(\bar{v}\)下坐标是\(x\)\(T(v_0)\)坐标是\(y\)。在\(\bar{v'}\)下相应的是\(x',y'\)。那么就有\(x=Mx',y=My'\)。同时还有\(A_Tx=y,B_Tx'=y'\)。联立得到\(AMx'=MBx'\)。由于对所有的\(x'\)这个式子都成立,因此\(AM=MB\),于是解得\(B=M^{-1}AM\)

其实我们做的事情是,从任何一个向量空间到另一个向量空间的线性映射,等价于“坐标”在一个满的空间到另一个满的空间的映射。而我们知道满的空间的映射就是矩阵,所以任何一个线性映射都可以用矩阵表示。任何一个线性空间都可以通过基的选取和坐标向量而“等价于”\(\R^n\)这样的空间。

特征向量作为基

怎样选基最好?最好的基应当能使\(A_T\)尽可能的简单。我们发现,如果选择特征向量作为基,那么\(A_T\)将是一个对角阵。根据线性映射定义的特征向量和之前根据矩阵定义的特征向量本质上就是一回事:如果映射前后选同一组基,那么向量乘以某个常数对应着坐标也乘这个常数——\(T(v)=\lambda v\)相当于对于\(v\)的坐标\(x\)满足了\(A_Tx=\lambda x\)

如果能够在\(V\)中找到\(n\)个线性独立的特征向量,那么我们就得到了一组基。以这组基为基础,\(T(v_1)=\lambda_1 v_1\)就是\(A_T \begin{bmatrix}1 \\ 0\\\vdots \\ 0\end{bmatrix}=\begin{bmatrix}\lambda_1 \\ 0\\\vdots \\ 0\end{bmatrix}\)。依次类推,就能得到\(A_T=\begin{bmatrix}\lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0\\\vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n\end{bmatrix}\)。用它作为矩阵是方便的,因为\(A_T\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}=\begin{bmatrix}\lambda_1x_1\\\lambda_2x_2\\\vdots\\\lambda_nx_n\end{bmatrix}\)

从线性映射看矩阵

知道了矩阵本质上是线性映射,我们就可以从线性映射的“高观点”来理解矩阵。

The Rank-Nullity Theorem

定义\(T:V \to W\)的Image为集合\(\{T(v)|v \in V\}\),记作\(\text{Im}(T)\)。定义\(T\)的Kernel为集合\(\{v|T(v)=0\}\),记作\(\text{Ker}(T)\)

\(\text{Im}(T)\)\(\text{Ker}(T)\)都是向量空间,并且分别是\(W\)\(V\)的子空间。\(T\)是满射当且仅当\(\dim(\text{Im}(T))=\dim(W)\)\(T\)是单射当且仅当\(\text{Ker}(T)=\{0\}\)(必要性Pf:\(T(v_1)=T(v_2)\)当且仅当\(T(v_1-v_2)=0\)当且仅当\(v_1=v_2\)

如果从矩阵的角度看,\(\text{Im}(T)\)就对应着对于所有的坐标\(x\)\(A_Tx\)收集在一起,因此\(\dim(\text{Im}(T))=\dim(C(A_T))\)\(\text{Ker}(T)\)就是所有满足\(A_Tx=0\)\(x\),因此\(\dim(\text{Ker}(T))=\dim(N(A_T))\)。根据我们的Fundamental Theorem,\(\dim(C(A_T))+\dim(N(A_T))=n\),其中\(n\)\(A_T\)的列数,也就是\(\dim(V)\)

结论\(\dim(\text{Im}(T))+\dim(\text{Ker}(T))=\dim(V)\)就是我们的The Rank-Nullity Theorem。它告诉我们一个线性映射的image与Kernel的维数之和等于定义域的维数。它本质上和我们之前证明的The Fundamental Theorem of Linear Algebra是同一回事,但我们记得我们用高斯消元来证明这个定理的时候过程繁琐而且非常不自然。现在我们将给出一个非常简洁自然的证明。

\(V\)\(n\)维的,并且有一组基\(\bar{v}\)。于是\(\text{Im}(T)=\text{span}\{T(v_1),\cdots,T(v_n)\}\)\(\{T(v_1),\cdots,T(v_n)\}\)的极大线性无关组就是\(\text{Im}(T)\)的一组基,不妨设这个极大线性无关组为\(\{w_1,\cdots,w_m\}\),为了书写方便,我们就不妨设他们就对应着\(\{T(v_1),\cdots,T(v_m)\}\)。再假设\(\text{Ker}(T)\)有一组基\(\{v_1',\cdots,v_p'\}\)。我们断言\(v_1,\cdots,v_m,v_1',\cdots,v_p'\)\(V\)的一组基,这样就能证明\(m+p=n\),证明也就结束了。

先证\(\text{span}\{v_1,\cdots,v_m,v_1',\cdots,v_p'\}=V\)\(\forall v \in V\)\(T(v)=\sum\limits_{i \in [m]}x_iT(v_i)=T(\sum\limits_{i \in [m]}x_iv_i)\)。因此\(T(v-\sum\limits_{i \in [m]}x_iv_i)=0\),推出\(v-\sum\limits_{i \in [n]}x_iv_i \in \text{Ker}(T)\)。我们知道\(\text{Ker}(T)\)中的元素被\(v_1'\cdots v_p'\)线性表示,因此综合起来\(v\)一定能被\(v_1,\cdots,v_m\)以及\(v_1',\cdots,v_p'\)线性表示。

再证\(v_1,\cdots,v_m,v_1',\cdots,v_p'\)线性独立。对于\(\sum\limits_{i \in [m]}x_iv_i+\sum\limits_{i \in [p]}y_iv_i'=0\),两边同时映射上\(T\),就得到\(T(\sum\limits_{i \in [m]}x_iv_i+\sum\limits_{i \in [p]}y_iv_i')=T(0)=0\)。因此\(\sum\limits_{i \in [m]}x_iT(v_i)+\sum\limits_{i \in [p]}y_iT(v_i')=0\),而我们知道任何\(T(v_i')\)都是0,因此这等价于\(\sum\limits_{i \in [m]}x_iT(v_i)=0\),由于已知\(T(v_i)\)是线性独立的,因此全部\(x_i\)都为0。带回最初的式子,就有\(\sum\limits_{i \in [p]}y_iv_i'=0\),因此所有的\(y_i\)都为0。所有系数都为0,线性独立得证。

一个应用:

我们曾经证明过\(\text{rank}(AB) \leq \min\{\text{rank}(A),\text{rank}(B)\}\),这给出了一个\(\text{rank}(AB)\)的上界。现在我们来证明下界:

\(\text{rank}(AB) \geq \text{rank}(A)+\text{rank}(B)-n\)(设\(A_{m \times n},B_{n \times \ell}\)

利用The Rank-Nullity Theorem,这等价于\(\ell-\dim(N(AB)) \geq n-\dim(N(A))+\ell-\dim(N(B))-n\),化简得到\(\dim(N(AB)) \leq \dim(N(A))+\dim(N(B))\)

考虑对于线性映射\(T:N(AB) \to \R^n\)\(T(x)=Bx\),那么\(\dim(N(AB))=\dim(\text{Im}(T))+\dim(\text{Ker}(T))\)\(x \in N(AB)\)要求\(ABx=0\),因此\(Bx=T(x) \in N(A)\),因此\(\dim(\text{Im}(T)) \leq \dim(N(A))\)。而\(x \in \text{Ker}(T)\)等价于\(Bx=0\),这等价于\(x \in N(B)\),因此\(\dim(\text{Ker}(T)) \leq \dim(N(B))\)。因此就有\(\dim(N(AB)) \leq \dim(N(A))+\dim(N(B))\)

posted @ 2022-12-11 13:49  DennyQi  阅读(526)  评论(0编辑  收藏  举报