线性代数及其应用 第一章

第 1 章 线性代数中的线性方程组

1.1 线性方程组

包含变量 \(x_1,x_2,\cdots,x_n\)线性方程是形如

\[a_1x_1+a_2x_2+\cdots+a_nx_n=b \]

的方程,其中 \(b\)系数 \(a_1,a_2,\cdots,a_n\) 为实数或复数,\(n\) 可以是任意正整数。

线性方程组是由一个或几个包含相同变量 \(x_1,x_2,\cdots,x_n\) 的线性方程组成的。

线性方程组的是一组数 \((s_1,s_2,\cdots,s_n)\),用这组数分别代替 \(x_1,x_2,\cdots,x_n\) 时所有方程的两边相等。

方程组所有可能的解的集合称为线性方程组的解集。若两个线性方程组有相同的解集,则它们称为等价的

线性方程组的解有下列三种情况:

\(1.\) 无解

\(2.\) 有唯一解

\(3.\) 有无穷多解

称一个线性方程组是相容的,若它有一个解或无穷多个解;称它是不相容的,若它无解。

矩阵记号

一个线性方程组包含的主要信息可以用一个称为矩阵的紧凑的矩形阵列表示。给出方程组

\[\begin{matrix}x_1 & -2x_2 & +x_3 & = 0 \\ & 2x_2 & -8x_3 & = 8 \\ 5x_1 & & -5x_3 & = 10 \end{matrix} \]

矩阵

\[\begin{bmatrix}1 & -2 & 1 \\ 0 & 2 & -8 \\ 5 & 0 & -5 \end{bmatrix} \]

称为该方程组的系数矩阵,而

\[\begin{bmatrix}1 & -2 & 1 & 0\\ 0 & 2 & -8 & 8\\ 5 & 0 & -5 & 10\end{bmatrix} \]

称为它的增广矩阵

矩阵的大小说明它包含的行数和列数。该增广矩阵有 \(3\)\(4\) 列,称为 \(3\times 4\)(读作 \(3\)\(4\) 列)矩阵。若 \(m,n\) 是正整数,\(m\times n\) 矩阵是一个有 \(m\)\(n\) 列的数的矩形阵列。

解线性方程组

解线性方程组的基本思路是把方程组用一个更容易解的等价方程组(即有相同解集的方程组)代替。

化简线性方程组的三种基本变换:

  • 把某个方程换成它与另一方程的倍数的和。

  • 交换两个方程的位置。

  • 把某一方程的所有项乘以一个非零常数。

一般方法是,我们用方程组第一个方程中含 \(x_1\) 的项消去其他方程中含 \(x_1\) 的项,用第二个方程中含 \(x_2\) 的项消去其他方程中含 \(x_2\) 的项,依次类推。最后得到一个简单的等价方程组。

考虑解刚才提到的方程组。将消去未知数的过程同时用方程组与相应的矩阵形式表示出来一边比较。

\[\begin{matrix}x_1 & -2x_2 & +x_3 & = 0 \\ & 2x_2 & -8x_3 & = 8 \\ 5x_1 & & -5x_3 & = 10 \end{matrix} \qquad \begin{bmatrix}1 & -2 & 1 & 0\\ 0 & 2 & -8 & 8\\ 5 & 0 & -5 & 10\end{bmatrix} \]

将第一个方程乘以 \(-5\),加到第三个方程上:

\[\begin{matrix}x_1 & -2x_2 & +x_3 & = 0 \\ & 2x_2 & -8x_3 & = 8 \\ & 10x_2 & -10x_3 & = 10 \end{matrix}\qquad \begin{bmatrix}1 & -2 & 1 & 0\\ 0 & 2 & -8 & 8\\ 0 & 10 & -10 & 10\end{bmatrix} \]

将方程 \(2\) 乘上 \(\dfrac{1}{2}\),将 \(x_2\) 的系数变为 \(1\) 以简化下一步的运算:

\[\begin{matrix}x_1 & -2x_2 & +x_3 & = 0 \\ & x_2 & -4x_3 & = 4 \\ & 10x_2 & -10x_3 & = 10 \end{matrix}\qquad \begin{bmatrix}1 & -2 & 1 & 0\\ 0 & 1 & -4 & 4\\ 0 & 10 & -10 & 10\end{bmatrix} \]

利用方程 \(2\) 中的 \(x_2\) 项消去方程 \(3\) 中的项 \(10x_2\)

\[\begin{matrix}x_1 & -2x_2 & +x_3 & = 0 \\ & x_2 & -4x_3 & = 4 \\ & & 30x_3 & =-30 \end{matrix}\qquad \begin{bmatrix}1 & -2 & 1 & 0\\ 0 & 1 & -4 & 4\\ 0 & 0 & 30 & -30\end{bmatrix} \]

将方程 \(3\)\(x_3\) 的系数化为 \(1\)

\[\begin{matrix}x_1 & -2x_2 & +x_3 & = 0 \\ & x_2 & -4x_3 & = 4 \\ & & x_3 & =-1 \end{matrix}\qquad \begin{bmatrix}1 & -2 & 1 & 0\\ 0 & 1 & -4 & 4\\ 0 & 0 & 1 & -1\end{bmatrix} \]

用方程 \(3\) 中的 \(x_3\) 消去第一个方程中的项 \(x_3\) 和第二个方程中的项 \(-4x_3\)

\[\begin{matrix}x_1 & -2x_2 & & = 1 \\ & x_2 & & = 0 \\ & & x_3 & =-1 \end{matrix}\qquad \begin{bmatrix}1 & -2 & 0 & 1\\ 0 & 1 & 0 & 0\\ 0 & 0 & 1 & -1\end{bmatrix} \]

再用方程 \(2\) 中的 \(x_2\) 消去第一个方程中的项 \(-2x_2\)

\[\begin{matrix}x_1 & & & = 1 \\ & x_2 & & = 0 \\ & & x_3 & =-1 \end{matrix}\qquad \begin{bmatrix}1 & 0 & 0 & 1\\ 0 & 1 & 0 & 0\\ 0 & 0 & 1 & -1\end{bmatrix} \]

我们得出原方程组的唯一解是 \((1,0,-1)\)。经验算这是符合条件的。

实际上,每个方程确定三维空间中的一个平面,点 \((1,0,-1)\) 落在三个平面上。

这说明了线性方程的变换对应于增广矩阵的行变换。前述三种基本变换对应于增广矩阵的下列变换。

初等行变换

\(1.\)(倍加变换)把某一行换成它本身与另一行的倍数的和。(通常说成,把某一行的倍数加到另一行上。)

\(2.\)(对换变换)把两行对换。

\(3.\)(倍乘变换)把某一行的所有元素乘以同一个非零数。

行变换可应用于任何矩阵。称两个矩阵为行等价的,若其中一个矩阵可以经一系列初等行变换称为另一个矩阵。

行变换是可逆的。考虑以下几种情形:若两行被对换,对换回来即可;若某行乘上非零常数 \(c\),再乘上 \(\dfrac{1}{c}\) 即可;若将第一行的 \(c\) 倍加到第二行上,其逆变换即将第一行的 \(-c\) 倍加到新的第二行上。

假设一个线性方程组经过行变换变成另一个新的方程组,考虑每一种行变换,容易看出,原方程组的任何一个解仍是新的方程组的一个解。反之,因原方程组也可由新方程组经行变换得出,故新方程组的每个解也是原方程组的解。于是有如下事实:

若两个线性方程组的增广矩阵是行等价的,则它们具有相同的解集。

存在性与唯一性问题

线性方程组的两个基本问题

\(1.\) 方程组是否相容,即它是否至少有一个解?

\(2.\) 若它有解,它是否只有一个解,即解是否唯一?

仍考虑下列方程组是否有解:

\[\begin{matrix}x_1 & -2x_2 & +x_3 & = 0 \\ & 2x_2 & -8x_3 & = 8 \\ 5x_1 & & -5x_3 & = 10 \end{matrix} \]


我们在之前已经通过行变换将其变换为三角形:

\[\begin{matrix}x_1 & -2x_2 & +x_3 & = 0 \\ & x_2 & -4x_3 & = 4 \\ & & x_3 & =-1 \end{matrix}\qquad \begin{bmatrix}1 & -2 & 1 & 0\\ 0 & 1 & -4 & 4\\ 0 & 0 & 1 & -1\end{bmatrix} \]

答案是显然的。确定 \(x_3\) 后将其代入方程 \(2\) 可确定 \(x_2\),又可确定 \(x_1\),解存在,即该方程组是相容的。(事实上易知解是唯一的。)

确定下列方程组是否相容:

\[\begin{matrix} & x_2 & -4x_3 & = 8 \\ 2x_1 & -3x_2 & +2x_3 & = 1 \\ 4x_1 & -8x_2 & +12x_3 & = 1 \end{matrix} \]


其增广矩阵为

\[\begin{bmatrix}0 & 1 & -4 & 8\\ 2 & -3 & 2 & 1\\ 4 & -8 & 12 & 1\end{bmatrix} \]

为从第一个方程得到 \(x_1\),对换第 \(1\) 行和第 \(2\) 行:

\[\begin{bmatrix}2 & -3 & 2 & 1\\ 0 & 1 & -4 & 8 \\ 4 & -8 & 12 & 1\end{bmatrix} \]

消去第三个方程的项 \(4x_1\),把第 \(1\) 行的 \(-2\) 倍加到第 \(3\) 行上:

\[\begin{bmatrix}2 & -3 & 2 & 1\\ 0 & 1 & -4 & 8 \\ 0 & -2 & 8 & -1\end{bmatrix} \]

消去第三个方程的项 \(-2x_2\),把第 \(2\) 行的 \(2\) 倍加到第 \(3\) 行上:

\[\begin{bmatrix}2 & -3 & 2 & 1\\ 0 & 1 & -4 & 8 \\ 0 & 0 & 0 & 15\end{bmatrix} \]

第三行 \(0=15\)\(0x_1+0x_2+0x_3=15\),显然矛盾。因为该增广矩阵等价的方程组与原方程组有相同的解集,原方程组是不相容的(即无解)。

数值计算

我们通过计算机求解线性方程组。大量线性代数问题运用浮点运算求解,数表示为小数形式:\(\pm 0.d_1d_2\cdots d_p\times 10^r\),其中 \(r\) 为整数,数位 \(p\) 通常为 \(8\)\(16\) 位。浮点运算存在不精确性,但很少引起严重问题。


1.2 行化简与阶梯形矩阵

行化简算法(也称行消去法,高斯消去法)可以用来解任意线性方程组。该算法可用于任意矩阵,不管其是否为某一线性方程组的增广矩阵。

在以下定义中,矩阵中的非零行或列指矩阵中至少包含一个非零元素的行或列,非零行的先导元素指该行中最左边的非零元素。

定义 \(\;\) 一个矩阵称为阶梯形(或行阶梯形),若它有以下三个性质:

\(1.\) 所有非零行都在零行之上。

\(2.\) 每一行的先导元素所在的列位于前一行先导元素的右边。

\(3.\) 先导元素所在列下方的元素都是零。

若一个阶梯形矩阵还满足以下性质,则称它为简化阶梯形(或简化行阶梯形):

\(4.\) 非零行的先导元素是 \(1\)

\(5.\) 先导元素 \(1\) 是该元素所在列的唯一非零元素。

若一个矩阵具有阶梯形(简化阶梯形),就称它为阶梯形简化阶梯形)矩阵。性质 \(2\) 说明先导元素构成阶梯形。性质 \(3\) 是性质 \(2\) 的推论。

下列矩阵都是阶梯形的。用 \(\blacksquare\) 表示先导元素,\(\ast\) 处的元素可取任意值:

\[\begin{bmatrix} \blacksquare & \ast & \ast & \ast \\ 0 & \blacksquare & \ast &\ast \\ 0&0&0&0 \\ 0&0&0&0 \end{bmatrix}\qquad \begin{bmatrix} 0&\blacksquare&\ast&\ast&\ast&\ast&\ast&\ast&\ast&\ast \\ 0&0&0&\blacksquare&\ast&\ast&\ast&\ast&\ast&\ast \\ 0&0&0&0&\blacksquare&\ast&\ast&\ast&\ast&\ast \\ 0&0&0&0&0&\blacksquare&\ast&\ast&\ast&\ast \\ 0&0&0&0&0&0&0&0&\blacksquare&\ast \end{bmatrix} \]

下列矩阵是简化阶梯形的,因为先导元素都是 \(1\),且在每个先导元素 \(1\) 的上、下个元素都是 \(0\)

\[\begin{bmatrix} 1 & 0 & \ast & \ast \\ 0 & 1 & \ast &\ast \\ 0&0&0&0 \\ 0&0&0&0 \end{bmatrix}\qquad \begin{bmatrix} 0&1&\ast&0&0&0&\ast&\ast&0&\ast \\ 0&0&0&1&0&0&\ast&\ast&0&\ast \\ 0&0&0&0&1&0&\ast&\ast&0&\ast \\ 0&0&0&0&0&1&\ast&\ast&0&\ast \\ 0&0&0&0&0&0&0&0&1&\ast \end{bmatrix} \]

任何非零矩阵都可以行化简(即用初等行变换)为阶梯形矩阵,也能用不同的方法化为不同的阶梯形矩阵。然而,一个矩阵只能化为唯一的简化阶梯形矩阵。

定理 1(简化阶梯形矩阵的唯一性)

每个矩阵等价于唯一的简化阶梯形矩阵。

若矩阵 \(\bm A\) 行等价于阶梯形矩阵 \(\bm U\),则称 \(\bm U\)\(\bm A\)阶梯形(或行阶梯形);若 \(\bm U\) 是简化阶梯形,则称 \(\bm U\)\(\bm A\)简化阶梯形

主元位置

当矩阵经行变换化为阶梯形后,经进一步行变换将矩阵化为简化阶梯形时,先导元素的位置并不改变。故当给定矩阵化为任何一个阶梯形时,先导元素总是在相同的位置上。这些先导元素对应于简化阶梯形中的先导元素 \(1\)

定义 \(\;\) 矩阵中的主元位置\(\bm A\) 中对应于它的简化阶梯形中先导元素 \(1\) 的位置。主元列\(\bm A\) 的含有主元位置的列。

将下列矩阵 \(\bm A\) 用行变换化为阶梯形并确定主元列:

\[\bm A=\begin{bmatrix}0 & -3 & -6 & 4 & 9 \\ -1 & -2 & -1 & 3 & 1 \\ -2 & -3 & 0 & 3 & -1 \\ 1 & 4 & 5 & -9 & -7\end{bmatrix} \]


通过行变换将其化为阶梯形:

\[\begin{bmatrix}1 & 4 & 5 & -9 & -7 \\ 0 & 2 & 4 & -6 & -6 \\ 0 & 0 & 0 & -5 & 0 \\ 0 & 0 & 0 & 0 & 0\end{bmatrix} \]

可知 \((1,1),(2,2),(3,4)\) 为主元位置,第一、二、四列是主元列。

主元就是在主元位置上的非零元素,用来通过行变换把下面的元素化为 \(0\)。上述例子的主元是 \(1,2,-5\),注意这些元素与矩阵 \(\bm A\) 中同一位置的元素不相同。

行化简算法

我们使用此算法变换矩阵成阶梯形或简化阶梯形。其包含四个步骤,产生一个阶梯形矩阵,第五步产生简化阶梯形矩阵。

考虑用初等行变换将如下矩阵先化为阶梯形,再化为简化阶梯形:

\[\begin{bmatrix}0 & 3 & -6 & 6 & 4 & -5 \\ 3 & -7 & 8 & -5 & 8 & 9 \\ 3 & -9 & 12 & -9 & 6 & 15\end{bmatrix} \]

第一步,由最左的非零列开始。这是一个主元列,主元位置在该列顶端。

此处主元列为第一列,主元位置为 \((1,1)\)

第二步,在主元列中选取一个非零元素作为主元。若有必要的话,对换两行将这个元素移到主元位置上。

此处对换第一行和第三行:

\[\begin{bmatrix}3 & -9 & 12 & -9 & 6 & 15 \\ 3 & -7 & 8 & -5 & 8 & 9 \\ 0 & 3 & -6 & 6 & 4 & -5 \\\end{bmatrix} \]

第三步,用倍加行变换将主元下面的元素变成 \(0\)

将第一行的 \(-1\) 倍加到第二行:

\[\begin{bmatrix}3 & -9 & 12 & -9 & 6 & 15 \\ 0 & 2 & -4 & 4 & 2 & -6 \\ 0 & 3 & -6 & 6 & 4 & -5 \\\end{bmatrix} \]

第四步,暂时不管包含主元位置的行以及它上面的各行,对剩下的子矩阵使用上述的三个步骤直到没有非零行需要处理为止。

先不管第一行。第一步指出,第二列是下一个主元列;第二步,选择该列中“顶端”的元素作为主元。

新主元列为第二列,主元位置为 \((2,2)\)

将第二行的 \(-\dfrac{3}{2}\) 倍加到第三行:

\[\begin{bmatrix}3 & -9 & 12 & -9 & 6 & 15 \\ 0 & 2 & -4 & 4 & 2 & -6 \\ 0 & 0 & 0 & 0 & 1 & 4 \\\end{bmatrix} \]

剩下一个只有一行的新子矩阵,主元位置为 \((3,5)\)

我们已得到整个矩阵的阶梯形。

第五步,由最右边的主元开始,把每个主元上方的各元素变成 \(0\)。若某个主元不是 \(1\),用倍乘变换将其变为 \(1\)

将第三行的若干倍加到第一行和第二行:

\[\begin{bmatrix}3 & -9 & 12 & -9 & 0 & -9 \\ 0 & 2 & -4 & 4 & 0 & -14 \\ 0 & 0 & 0 & 0 & 1 & 4 \\\end{bmatrix} \]

将第二行除以该行的主元:

\[\begin{bmatrix}3 & -9 & 12 & -9 & 0 & -9 \\ 0 & 1 & -2 & 2 & 0 & -7 \\ 0 & 0 & 0 & 0 & 1 & 4 \\\end{bmatrix} \]

将第二行的 \(9\) 倍加到第一行:

\[\begin{bmatrix}3 & 0 & -6 & 9 & 0 & -72 \\ 0 & 1 & -2 & 2 & 0 & -7 \\ 0 & 0 & 0 & 0 & 1 & 4 \\\end{bmatrix} \]

将第一行除以该行的主元:

\[\begin{bmatrix}1 & 0 & -2 & 3 & 0 & -24 \\ 0 & 1 & -2 & 2 & 0 & -7 \\ 0 & 0 & 0 & 0 & 1 & 4 \\\end{bmatrix} \]

我们已得到原矩阵的简化阶梯形。

第一至四步称为行化简算法的向前步骤,产生唯一的简化阶梯形的第五步称为向后步骤

数值计算

在第二步中,计算机程序同城选择一列中绝对值最大的元素作为主元。这种方法通常称为列主元法,可以减少计算中的舍入误差。

线性方程组的解

行化简算法应用于方程组的增广矩阵时,可以得出线性方程组解集的一种显式表示法。

设某个线性方程组的增广矩阵已经化为等价的简化阶梯形

\[\begin{bmatrix}1 & 0 & -5 & 1 \\ 0 & 1 & 1 & 4 \\ 0 & 0 & 0 & 0 \end{bmatrix} \]

对应线性方程组为

\[\begin{matrix}x_1 & & -5x_3 & =1 \\ & x_2 & +x_3 & =4 \\ & & 0 & =0\end{matrix} \]

对应于主元列的变量 \(x_1\)\(x_2\) 称为基本变量(或先导变量)。其他变量(如 \(x_3\))称为自由变量

只要一个线性方程组是相容的,其解集就可以显式表示,只需把方程的简化形式解出来再用自由变量表示基本变量即可。由于简化阶梯形使每个基本变量仅包含在一个方程中,故这是简单的。

在上述方程组中,我们得到:

\[\begin{cases}x_1=1+5x_3 \\ x_2=4-x_3 \\ x_3\space\text{是自由变量}\end{cases} \]

我们说 \(x_3\) 是自由变量,是指它可取任意的值。当 \(x_3\) 的值选定后,我们便可以确定 \(x_1\)\(x_2\) 的值。也就是说,\(x_3\) 的不同选择确定的方程组的不同的解,方程组的每个解由 \(x_3\) 的值的选择来确定

上式给出的解称为方程组的通解,因为它给出了所有解的显式表示。

  • 记号“\(\sim\)”表示其前后的两个矩阵行等价。

解集的参数表示

形如 \(\displaystyle \begin{cases}x_1=1+5x_3 \\ x_2=4-x_3 \\ x_3\space\text{是自由变量}\end{cases}\),解集的表示式称为解集的参数表示,其中自由变量作为参数。解方程组就是要求出解集的这种参数表示或确定它无解。

当一个方程组是相容的且具有自由变量时,它的解集具有多种参数表示。例如

\[\begin{matrix}x_1 & & -5x_3 & =1 \\ & x_2 & +x_3 & =4 \\ & & 0 & =0\end{matrix} \]

将方程 \(2\)\(5\) 倍加到方程 \(1\)

\[\begin{matrix}x_1 & +5x_2 & & =1 \\ & x_2 & +x_3 & =4\end{matrix} \]

此时可将 \(x_2\) 看作参数,用 \(x_2\) 表示 \(x_1\)\(x_3\),得到解集的第一种表示法。不过,我们总是约定使用自由变量作为参数来表示解集。

当方程组不相容时,解集为空集,无论方程组是否有自由变量,解集参数表示。

回代法

考虑该方程组,其增广矩阵已是阶梯形,而非简化阶梯形:

\[\begin{matrix}x_1 & -7x_2 & +2x_3 & -5x_4 & +8x_5 & =10 \\ & x_2 & -3x_3 & +3x_4 & +x_5 & =-5 \\ &&&x_4 & -x_5 & =4\end{matrix} \]

计算机程序通常用回代法解此方程组。程序现在第三行处用 \(x_5\) 表示 \(x_4\),再代入到第二个方程内解出 \(x_2\),最后解出 \(x_1\)

矩阵算法(行化简算法的向后步骤)与回代法所需的算术运算次数相同。

数值计算

一般地,行化简算法的向前步骤比向后步骤需要更多运算。解方程组的算法通常用浮算来衡量。一个浮算(\(\mathrm{flop}\) 或浮点运算)就是对两个浮点实数进行一次算术运算(加减乘除)。对一个 \(n\times (n+1)\) 矩阵,化简为阶梯形大约需要 \(\dfrac{2}{3}n^3+\dfrac{1}{2}n^2-\dfrac{7}{6}n\) 次浮算,进一步化为简化阶梯形大约最多只需 \(n^2\) 次运算。

存在性与唯一性问题

我们已经可以回答 1.1 中的两个基本问题。

考虑下列线性方程组的解是否存在且唯一,已知其增广矩阵的化简形式

\[\begin{bmatrix}3 & -9 & 12 & -9 & 6 & 15 \\ 0 & 2 & -4 & 4 & 2 & -6 \\ 0 & 0 & 0 & 0 & 1 & 4 \\\end{bmatrix} \]


基本变量是 \(x_1,x_2,x_5\),自由变量是 \(x_3,x_4\),无类似 \(0=1\) 的造成不相容方程组的方程,可以用回代法求解。因为有自由变量,\(x_3,x_4\) 的每一种选择都确定一组解,故该方程组有无穷多解。

定理 2(存在性与唯一性定理)

线性方程组相容的充要条件是增广矩阵的最右列不是主元列。也就是说,增广矩阵的阶梯形没有形如

\[\begin{bmatrix}0 & \cdots & 0 & b\end{bmatrix},b\ne 0 \]

的行。若线性方程组相容,则它的解集可能有两种情况:(\(1\))没有自由变量时,有唯一解;(\(2\))若至少有一个自由变量,则有无穷多解。

以下是求解线性方程组的步骤。

应用行化简算法解线性方程组

\(1.\) 写出方程组的增广矩阵。

\(2.\) 应用行化简算法把增广矩阵化为阶梯形。确定方程组是否相容。如果没有解则停止;否则进行下一步。

\(3.\) 继续行化简算法得到它的简化阶梯形。

\(4.\) 写出由第 \(3\) 步所得矩阵对应的方程组。

\(5.\) 把第 \(4\) 步所得的每个非零方程改写为用任意自由变量表示其基本变量的形式。

1.3 向量方程

我们用向量表示一组有序数

仅含一列的矩阵称为列向量,或简称向量

包含两个元素的向量形如 \(\displaystyle \bm u=\begin{bmatrix}u_1 \\ u_2\end{bmatrix}\),其中 \(u_1,u_2\) 为任意实数。所有两个元素的向量的集记为 \(\mathbb{R}^2\)\(\mathbb{R}\) 表示向量中的元素是实数,指数 \(2\) 表示每个向量包含两个元素。

(对于大部分定义和定理,将 \(\mathbb{R}\) 变为 \(\mathbb{C}\) 时也成立。)

\(\mathbb{R}^2\) 中的运算和几何意义都是简单的。

\(\mathbb{R}^n\) 中的向量

\(\mathbb{R}^n\) 表示所有 \(n\) 个实数(或有序 \(n\) 元组)的集合,通常写成 \(n\times 1\) 列矩阵的形式,如

\[\bm u=\begin{bmatrix}u_1 \\ u_2 \\ \vdots \\ u_n\end{bmatrix} \]

所有元素都是零的向量称为零向量,用 \(\bm0\) 表示(\(\bm0\) 中元素个数可由上下文确定)。

\(\mathbb{R}^n\) 中向量相等、向量加法与标量乘法运算与 \(\mathbb{R}^2\) 中类似。

\(\mathbb{R}^n\) 中向量的代数性质

\(\mathbb{R}^n\) 中一切向量 \(\bm u,\bm v,\bm w\) 以及标量 \(c,d\)

\(1\)\(\bm u+\bm v =\bm v+\bm u\)

\(2\)\((\bm u+\bm v)+\bm w=\bm u+(\bm v+\bm w)\)

\(3\)\(\bm u+\bm0=\bm0+\bm u=\bm u\)

\(4\)\(\bm u+(-\bm u)=-\bm u+\bm u=\bm0\)

\(5\)\(c(\bm u+\bm v)=c\bm u+c\bm v\)

\(6\)\((c+d)\bm u=c\bm u+d\bm u\)

\(7\)\(c(d\bm u)=(cd)\bm u\)

\(8\)\(1\bm u=\bm u\)

我们使用“向量减法”,即用 \(\bm u-\bm v\) 代替 \(\bm u+(-1)\bm v\)

线性组合

给定 \(\mathbb{R}^n\) 中向量 \(\bm v_1,\bm v_2,\cdots,\bm v_p\) 和标量 \(c_1,c_2,\cdots,c_p\),向量

\[\bm y=c_1\bm v_1+c_2\bm v_2+\cdots+c_p\bm v_m \]

称为向量 \(\bm v_1,\bm v_2,\cdots,\bm v_p\)\(c_1,c_2,\cdots,c_p\)线性组合。线性组合中的权可为任意实数。

假设 \(\bm a_1=\begin{bmatrix}1\\-2\\5\end{bmatrix}\)\(\bm a_2=\begin{bmatrix}2\\5\\6\end{bmatrix}\)\(\bm b=\begin{bmatrix}7\\4\\-3\end{bmatrix}\),欲确定 \(\bm b\) 能否写成 \(\bm a_1\)\(\bm a_2\) 的线性组合,即确定是否存在权 \(x_1\)\(x_2\) 使得

\[x_1\bm a_1+x_2\bm a_2=\bm b \]


发现只需解关于 \(x_1\)\(x_2\) 的线性方程组,其增广矩阵为

\[\begin{bmatrix}1&2&7 \\ -2&5&4 \\ -5&6&-3\end{bmatrix} \]

我们将此矩阵写成另一种形式:

\[\begin{bmatrix}\bm a_1 & \bm a_2 & \bm b\end{bmatrix} \]

我们得到如下结论。

向量方程

\[x_1\bm a_1+x_2\bm a_2+\cdots+x_n\bm a_n=\bm b \]

和增广矩阵为

\[\begin{bmatrix}\bm a_1 & \bm a_2 & \cdots & \bm a_n & \bm b\end{bmatrix} \]

的线性方程组有相同的解集。特别地,\(\bm b\) 可表示为 \(\bm a_1,\bm a_2,\cdots,\bm a_n\) 的线性组合当且仅当对应于上式的线性方程组有解。

线性代数的一个主要思想是研究可以表示为某一固定向量集合 \(\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\) 的线性组合的所有向量。

定义 \(\;\)\(\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\)\(\mathbb{R}^n\) 中的向量,则 \(\bm v_1,\bm v_2,\cdots,\bm v_p\) 的所有线性组合所成的集合用记号 \(\mathrm{Span}(\bm v_1,\bm v_2,\cdots,\bm v_p)\) 表示,称为\(\bm v_1,\bm v_2,\cdots,\bm v_p\) 所生成(或张成\(\mathbb{R}^n\) 的子集。也就是说,\(\mathrm{Span}(\bm v_1,\bm v_2,\cdots,\bm v_p)\) 是所有形如

\[c_1\bm v_1+c_2\bm v_2+\cdots+c_p\bm v_p \]

的向量的集合,其中 \(c_1,c_2,\cdots,c_p\) 为标量。

判断向量 \(\bm b\) 是否属于 \(\mathrm{Span}(\bm v_1,\bm v_2,\cdots,\bm v_p)\),即判断向量方程

\[x_1\bm v_1+x_2\bm v_2+\cdots+x_p\bm v_p=\bm b \]

是否有解,或等价地,判断增广矩阵为 \(\begin{bmatrix}\bm v_1 & \bm v_2 & \cdots & \bm v_p & \bm b\end{bmatrix}\) 的线性方程组是否有解。

\(\mathrm{Span}(\bm v_1,\bm v_2,\cdots,\bm v_p)\) 包含 \(\bm v_1\) 的所有倍数。特别地,它一定包含零向量。

\(\mathrm{Span}\{\bm v\},\mathrm{Span}\{\bm u,\bm v\}\) 的几何解释

\(\bm v\in \mathbb{R}^3\)\(\mathrm{Span}\{\bm v\}\)\(\bm v\) 的所有标量倍数的集合,也就是 \(\mathbb{R}^3\) 中通过 \(\bm v\)\(\bm 0\) 的直线上所有点的集合。

\(\bm u,\bm v\in \mathbb{R}^3\)\(\bm v\) 不是 \(\bm u\) 的倍数,则 \(\mathrm{Span}\{\bm u,\bm v\}\)\(\mathbb{R}^3\) 中包含 \(\bm u,\bm v,\bm0\) 的平面。特别地,\(\mathrm{Span}\{\bm u,\bm v\}\) 包含 \(\mathbb{R}^3\) 中通过 \(\bm u\)\(\bm 0\) 的直线,也包含通过 \(\bm v\)\(\bm 0\) 的直线。

1.4 矩阵方程 \(\bm A\bm x=\bm b\)

线性代数中的一个基本思想是把向量的线性组合看成矩阵与向量的积。

定义 \(\;\)\(\bm A\)\(m\times n\) 矩阵,它的列为 \(\bm a_1,\bm a_2,\cdots,\bm a_n\),若 \(\bm x\)\(\mathbb{R}^n\) 中的向量,则 \(\bm A\)\(\bm x\) 的积(记为 \(\bm A\bm x\))就是 \(\bm A\) 的各列以 \(\bm x\) 中对应元素为权的线性组合,即

\[\bm A\bm x=\begin{bmatrix}\bm a_1&\bm a_2&\cdots&\bm a_n\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}=x_1\bm a_1+x_2\bm a_2+\cdots+x_n\bm a_n \]

注意 \(\bm A\bm x\) 仅当 \(\bm A\) 的列数等于 \(\bm x\) 中的元素个数时才有意义。

例如 \(\begin{bmatrix}2&-3\\8&0\\-5&2\end{bmatrix}\begin{bmatrix}4\\7\end{bmatrix}=4\begin{bmatrix}2\\8\\-5\end{bmatrix}+7\begin{bmatrix}-3\\0\\2\end{bmatrix}=\begin{bmatrix}8\\32\\-20\end{bmatrix}+\begin{bmatrix}-21\\0\\14\end{bmatrix}=\begin{bmatrix}-13\\32\\-6\end{bmatrix}\)

\(\bm v_1,\bm v_2,\bm v_3\in\mathbb{R}^m\),我们可以把线性组合 \(3\bm v_1-5\bm v_2+7\bm v_3\) 表示为矩阵乘向量的形式:

\[3\bm v_1-5\bm v_2+7\bm v_3=\begin{bmatrix}\bm v_1&\bm v_2&\bm v_3\end{bmatrix}\begin{bmatrix}3\\-5\\7\end{bmatrix}=\bm A\bm x \]

我们可以将如下线性方程组写成向量方程,再表示为矩阵乘向量的形式:

\[\begin{matrix}x_1&+2x_2&-x_3&=4 \\ &-5x_2&3x_3&=1\end{matrix} \]

\[x_1\begin{bmatrix}1\\0\end{bmatrix}+x_2\begin{bmatrix}2\\-5\end{bmatrix}+x_3\begin{bmatrix}-1\\3\end{bmatrix}=\begin{bmatrix}4\\1\end{bmatrix} \]

\[\begin{bmatrix}1&2&-1\\0&-5&3\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=\begin{bmatrix}4\\1\end{bmatrix} \]

该方程有形式 \(\bm A\bm x=\bm b\),称这样的方程为矩阵方程

定理 3

\(\bm A\)\(m\times n\) 矩阵,它的列为 \(\bm a_1,\bm a_2,\cdots,\bm a_n\),而 \(\bm b\) 属于 \(\mathbb{R}^m\),则矩阵方程

\[\bm A\bm x=\bm b \]

与向量方程

\(x_1\bm a_1+x_2\bm a_2+\cdots+x_n\bm a_n=\bm b\)

有相同的解集。它又与增广矩阵为

\[\begin{bmatrix}\bm a_1&\bm a_2&\cdots\bm a_n&\bm b\end{bmatrix} \]

的线性方程组有相同的解集。

于是我们可将线性方程组作为矩阵方程、向量方程组或线性方程组来研究,均可使用行化简算法来化简增广矩阵。

解的存在性

\(\bm A\bm x\) 的定义直接导致如下事实:

方程 \(\bm A\bm x=\bm b\) 有解当且仅当 \(\bm b\)\(\bm A\) 的各列的线性组合。

\(\bm b\in\mathrm{Span}\{\bm a_1,\bm a_2,\cdots,\bm a_n\}\)”等价于“\(\bm A\bm x=\bm b\)”是否相容。

\(\bm A=\begin{bmatrix}1&3&4 \\ -4&2&-6 \\ -3&-2&-7\end{bmatrix}\)\(\bm b=\begin{bmatrix}b_1\\b_2\\b_3\end{bmatrix}\),试问方程 \(\bm A\bm x=\bm b\) 是否对一切可能的 \(b_1,b_2,b_3\) 有解。


\(\bm A\bm x=\bm b\) 的增广矩阵化简:

\[\begin{bmatrix}1&3&4&b_1 \\ -4&2&-6&b_2 \\ -3&-2&-7&b_3\end{bmatrix}\sim\begin{bmatrix}1&3&4&b_1 \\ 0&14&10&b_2+4b_1 \\ 0&7&5&b_3+3b_1\end{bmatrix}\sim\begin{bmatrix}1&3&4&b_1 \\ 0&14&10&b_2+4b_1 \\ 0&0&0&b_3+3b_1-\frac{1}{2}(b_2+4b_1)\end{bmatrix} \]

\(4\) 列的第 \(3\) 个元素为 \(b_1-\dfrac{1}{2}b_2+b_3\),由于该式可非零,方程 \(\bm A\bm x=\bm b\) 并不是对一切的 \(\bm b\) 都相容。

所得简化矩阵描述了使方程 \(\bm A\bm x=\bm b\) 相容的所有 \(\bm b\) 的集合:\(\bm b\) 满足 \(b_1-\dfrac{1}{2}b_2+b_3=0\)

注意到由于 \(\bm A\) 的阶梯形含有零行,方程 \(\bm A\bm x=\bm b\) 并非对所有 \(\bm b\) 都相容。若 \(\bm A\) 在三行都有主元,就不必注意增广列的计算。

当我们说“\(\bm A\) 的列生成 \(\mathbb{R}^m\)”时,意思是说 \(\mathbb{R}^m\) 中的每个向量 \(\bm b\) 都是 \(\bm A\) 的列的线性组合。一般地,\(\mathbb{R}^m\) 中向量集 \(\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\) 生成 \(\mathbb{R}^m\) 的意思是说,\(\mathbb{R}^m\) 中的每个向量都是 \(\bm v_1,\bm v_2,\cdots,\bm v_p\) 的线性组合,即 \(\mathrm{Span}\{\bm v_1,\bm v_2,\cdots,\bm v_p\}=\mathbb{R}^m\)

定理 4

\(\bm A\)\(m\times n\) 矩阵,则下列命题是逻辑上等价的。也就是说,对某个 \(\bm A\),它们都成立或都不成立。

\(\text{a}.\)\(\mathbb{R}^m\) 中每个 \(\bm b\),方程 \(\bm A\bm x=\bm b\) 有解。

\(\text{b}.\) \(\mathbb{R}^m\) 中的每个 \(\bm b\) 都是 \(\bm A\) 的列的一个线性组合。

\(\text{c}.\) \(\bm A\) 的各列生成 \(\mathbb{R}^m\)

\(\text{d}.\) \(\bm A\) 在每一行都有一个主元位置。

命题 \(\text{a},\text{b},\text{c}\) 等价是根据 \(\bm A\bm x\) 的定义和一组向量生成 \(\mathbb{R}^m\) 空间的含义而得到的。只需证明对任意矩阵 \(\bm A\),命题 \(\text{a}\)\(\text{d}\) 同时为真或同时为假。

\(\bm U\)\(\bm A\) 的阶梯形。给定 \(\bm b\in\mathbb{R}^m\),我们可以将增广矩阵 \(\begin{bmatrix}\bm A&\bm b\end{bmatrix}\) 行化简为增广矩阵 \(\begin{bmatrix}\bm U&\bm d\end{bmatrix}\),其中 \(\bm d\in\mathbb{R}^m\)

\(\text{d}\) 成立,则 \(\bm U\) 的每一行包含一个主元位置而在增广列中不可能有主元。故对任意 \(\bm b\)\(\bm A\bm x=\bm b\) 有解,\(\text{a}\) 成立。

\(\text{d}\) 不成立,则 \(\bm U\) 的最后一行都是 \(0\)。设 \(\bm d\) 是最后一个元素为 \(1\) 的向量,则 \(\begin{bmatrix}\bm U&\bm d\end{bmatrix}\) 代表一个不相容的方程组。由于行变换可逆,我们可将 \(\begin{bmatrix}\bm U&\bm d\end{bmatrix}\) 变换为 \(\begin{bmatrix}\bm A&\bm b\end{bmatrix}\),故 \(\bm A\bm x=\bm b\) 也不相容,\(\text{a}\) 不成立。

得证。

注意定理 4 讨论的是系数矩阵,而非增广矩阵 \(\begin{bmatrix}\bm A&\bm b\end{bmatrix}\)​。

\(\bm A\bm x\) 的计算

考虑计算 \(\bm A\bm x\),其中 \(\bm A=\begin{bmatrix}2&3&4\\-1&5&-3\\6&-2&8\end{bmatrix}\)\(\bm x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}\)

由定义有,

\[\begin{aligned} \begin{bmatrix}2&3&4\\-1&5&-3\\6&-2&8\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}&=x_1\begin{bmatrix}2\\-1\\6\end{bmatrix}+x_2\begin{bmatrix}3\\5\\-2\end{bmatrix}+x_3\begin{bmatrix}4\\-3\\8\end{bmatrix} \\ &=\begin{bmatrix}2x_1\\-1x_1\\6x_1\end{bmatrix}+\begin{bmatrix}3x_2\\5x_2\\-2x_2\end{bmatrix}+\begin{bmatrix}4x_3\\-3x_3\\8x_3\end{bmatrix} \\ &=\begin{bmatrix}2x_1+3x_2+4x_3\\-x_1+5x_2-3x_3\\6x_1-2x_2+8x_3\end{bmatrix} \end{aligned} \]

注意到,矩阵 \(\bm A\bm x\) 的第一个元素是 \(\bm A\) 的第一行与 \(\bm x\) 中相同元素乘积之和(有时称为点积),即

\[\begin{bmatrix}2&3&4\\&&\\&&\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=\begin{bmatrix}2x_1+3x_2+4x_3 \\ \; \\ \; \end{bmatrix} \]

第二行如下,第三行也同理。

\[\begin{bmatrix}&&\\-1&5&-3\\&&\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=\begin{bmatrix}\;\\-x_1+5x_2-3x_3\\ \;\end{bmatrix} \]

计算 \(\bm A\bm x\) 的行-向量规则

若乘积 \(\bm A\bm x\) 有意义,则 \(\bm A\bm x\) 中的第 \(i\) 个元素是 \(\bm A\) 的第 \(i\) 行元素与 \(\bm x\) 的相应元素乘积之和。

注意如下例子:

\[\begin{bmatrix}1&0&0\\0&1&0\\0&0&1\end{bmatrix}\begin{bmatrix}r\\s\\t\end{bmatrix}=\begin{bmatrix}1\cdot r+0\cdot s+0\cdot t \\ 0\cdot r+1\cdot s+0\cdot t \\ 0\cdot r+0\cdot s+1\cdot t\end{bmatrix}=\begin{bmatrix}r\\s\\t\end{bmatrix} \]

该矩阵的主对角线上元素为 \(1\),其他位置上元素为 \(0\),这个矩阵称为单位矩阵,并记为 \(\bm I\)

类似地,有 \(n\times n\) 单位矩阵,记为 \(\bm I_n\),对任意 \(\mathbb{R}^n\) 中的 \(\bm x\)\(\bm I_n\bm x=\bm x\)

矩阵-向量积 \(\bm A\bm x\) 的性质

定理 5

\(\bm A\)\(m\times n\) 矩阵,\(\bm u\)\(\bm v\)\(\mathbb{R}^n\) 中向量,\(c\) 是标量,则

\(\text{a}.\) \(\bm A(\bm u+\bm v)=\bm A\bm u+\bm A\bm v\)

\(\text{b}.\) \(\bm A(c\bm u)=c(\bm A\bm u)\)

方便起见,取 \(n=3\)\(\bm A=\begin{bmatrix}\bm a_1&\bm a_2&\bm a_3\end{bmatrix},\bm u,\bm v\)\(\mathbb{R}^3\) 中的向量(一般情况的证明类似)。

\(u_i,v_i\) 分别为 \(\bm u\)\(\bm v\) 的第 \(i\) 个元素。

证明 \(\text{a}\),把 \(\bm A(\bm u+\bm v)\) 作为 \(\bm A\) 的各列以 \(\bm u+\bm v\) 的各元素为权的线性组合来计算。

\[\begin{aligned} \bm A(\bm u+\bm v)&=\begin{bmatrix}a_1&a_2&a_3\end{bmatrix}\begin{bmatrix}u_1+v_1\\u_2+v_2\\u_3+v_3\end{bmatrix} \\ &=(u_1+v_1)\bm a_1+(u_2+v_2)\bm a_2+(u_3+v_3)\bm a_3 \\ &=(u_1\bm a_1+u_2\bm a_2+u_3\bm a_3)+(v_1\bm a_1+v_2\bm a_2+v_3\bm a_3) \\ &=\bm A\bm u+\bm A\bm v \end{aligned} \]

证明 \(\text{b}\),把 \(\bm A(c\bm u)\) 作为 \(\bm A\) 的各列以 \(c\bm u\) 的各元素为权的线性组合来计算。

\[\begin{aligned} \bm A(c\bm u)&=\begin{bmatrix}\bm a_1&\bm a_2&\bm a_3\end{bmatrix}\begin{bmatrix}cu_1\\cu_2\\cu_3\end{bmatrix} \\ &=(cu_1)\bm a_1+(cu_2)\bm a_2+(cu_3)\bm a_3 \\ &=c(u_1\bm a_1)+c(u_2\bm a_2)+c(u_3\bm a_3) \\ &=c(u_1\bm a_1+u_2\bm a_2+u_3\bm a_3) \\ &=c(\bm A\bm u) \end{aligned} \]

得证。

数值计算

为优化计算 \(\bm A\bm x\) 的计算机算法,一系列计算对储存在相连的存储单元中的数据进行。矩阵计算广泛运用 \(\mathrm{Fortran}\) 算法,它将矩阵作为若干列存储,把 \(\bm A\bm x\) 作为 \(\bm A\) 的列的线性组合来计算。\(\mathrm{C}\) 语言把矩阵按行存储,\(\bm A\bm x\) 用另一种规则计算,这种算法使用 \(\bm A\) 的行。

1.5 线性方程组的解集

齐次线性方程组

线性方程组称为齐次的,若它可写成 \(\bm A\bm x=\bm 0\) 的形式,其中 \(\bm A\)\(m\times n\) 矩阵且 \(\bm0\)\(\mathbb{R}^m\) 中的零向量。这些方程组至少有一个解 \(\bm x=\bm 0\),这个解称为它的平凡解。满足 \(\bm A\bm x=\bm 0\) 的非零向量 \(\bm x\) 称为它的非平凡解。由定理 2 可知:

齐次方程 \(\bm A\bm x=\bm0\) 有非平凡解当且仅当方程至少有一个自由变量。

对于齐次方程组

\[\begin{matrix}3x_1&+5x_2&-4x_3&=0 \\ -3x_1&-2x_3&+4x_3&=0 \\ 6x_1&+x_2&-8x_3&=0\end{matrix} \]

用行化简法将增广矩阵 \(\begin{bmatrix}\bm A&\bm 0\end{bmatrix}\) 化为阶梯形:

\[\begin{bmatrix}3&5&-4&0 \\ -3&-2&4&0 \\ 6&1&-8&0\end{bmatrix}\sim\begin{bmatrix}3&5&-4&0 \\ 0&3&0&0 \\ 0&-9&0&0\end{bmatrix}\sim\begin{bmatrix}3&5&-4&0 \\ 0&3&0&0 \\ 0&0&0&0\end{bmatrix} \]

\(x_3\) 为自由变量,故 \(\bm A\bm x=\bm 0\) 有非平凡解,将 \(\begin{bmatrix}\bm A&\bm 0\end{bmatrix}\) 化为简化阶梯形,即

\[\begin{bmatrix}1&0&-\frac{4}{3}&0 \\ 0&1&0&0 \\ 0&0&0&0\end{bmatrix}\Longrightarrow \begin{matrix}x_1&&-\frac{4}{3}x_3&=0 \\ &x_2&&=0 \\ &&0&=0\end{matrix} \]

解出基本变量 \(x_1=\dfrac{4}{3}x_3\)\(x_2=0\)\(x_3\) 是自由变量。\(\bm A\bm x=\bm 0\) 的通解有向量形式

\[\bm x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=\begin{bmatrix}\frac{4}{3}x_3\\0\\x_3\end{bmatrix} \]

注意到 \(\bm x=x_3\bm v\),其中 \(\bm v=\begin{bmatrix}\frac{4}{3}\\0\\1\end{bmatrix}\),这意味着解集是 \(\mathbb{R}^3\) 中过 \(\bm0\) 的直线。

对于单一方程 \(10x_1-3x_2-2x_3=0\)\(x_1=0.3x_2+0.2x_3\),则

\[\bm x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=\begin{bmatrix}0.3x_2+0.2x_3\\x_2\\x_3\end{bmatrix}=x_2\begin{bmatrix}0.3\\1\\0\end{bmatrix}+x_3\begin{bmatrix}0.2\\0\\1\end{bmatrix} \]

令两向量分别为 \(\bm u\)\(\bm v\),则解集为 \(\mathrm{Span}\{\bm u,\bm v\}\),解集为过 \(\bm0\) 的一个平面。

齐次方程 \(\bm A\bm x=\bm 0\) 总可表示为 \(\mathrm{Span}\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\),其中 \(\bm v_1,\bm v_2,\cdots,\bm v_p\) 为适当的解向量。若唯一解为零向量,则解集为 \(\mathrm{0}\)

参数向量形式

前述方程 \(10x_1-3x_2-2x_3=0\) 是平面的隐式描述,解此方程是为了找这个平面的显式描述,即将其作为 \(\bm u\)\(\bm v\) 所生成的子集。方程 \(x=x_2\begin{bmatrix}0.3\\1\\0\end{bmatrix}+x_3\begin{bmatrix}0.2\\0\\1\end{bmatrix}\) 称为平面的参数向量方程,有时也可写为

\[\bm x=s\bm u+t\bm v\quad(s,t\in \mathbb{R}) \]

来强调参数可取任何实数值。前一个例子里的方程 \(\bm x=x_3\bm v\)\(x_3\) 为自由变量)或 \(\bm x=t\bm v\)\(t\in\mathbb{R}\)) 是直线的参数向量方程。

当解集用向量显式表示时,我们称之为解的参数向量形式

非齐次方程组的解

当非齐次线性方程组有许多解时,通解一般可表示为参数向量形式,即由一个向量加上满足对应的齐次方程的一些向量的任意线性组合的形式。

求解 \(\bm A\bm x=\bm b\),其中

\[\bm A=\begin{bmatrix}3&5&-4 \\ -3&-2&4 \\ 6&1&-8\end{bmatrix},\bm b=\begin{bmatrix}7\\-1\\-4\end{bmatrix} \]


对增广矩阵做行变换有

\[\begin{bmatrix}3&5&-4&7 \\ -3&-2&4&-1 \\ 6&1&-8&-4\end{bmatrix}\sim\begin{bmatrix}1&0&-\frac{4}{3}&-1 \\ 0&1&0&2 \\ 0&0&0&0\end{bmatrix} \]

\(x_1=-1+\dfrac{4}{3}x_3\)\(x_2=2\)\(x_3\) 为自由变量,\(\bm A\bm x=\bm b\) 的通解形式

\[\bm x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=\begin{bmatrix}-1+\frac{4}{3}x_2\\2\\x_3\end{bmatrix}=\begin{bmatrix}-1\\2\\0\end{bmatrix}+x_3\begin{bmatrix}\frac{4}{3}\\0\\1\end{bmatrix} \]

\[\bm x=\bm p+t\bm v\quad(t\in\mathbb{R}) \]

就是用参数向量形式表示的 \(\bm A\bm x=\bm b\) 的解集。

从几何上,我们将向量加法解释为平移。此时我们称 \(\bm v\)平移 \(\bm p\)\(\bm v+\bm p\)。于是 \(\bm A\bm x=\bm b\) 的解集是一条通过 \(\bm p\) 而平行于 \(\bm A\bm x=\bm 0\) 的解集的直线。

定理 6

设方程 \(\bm A\bm x=\bm b\) 对某个 \(\bm b\) 是相容的,\(\bm p\) 为一个特解,则 \(\bm A\bm x=\bm b\) 的解集是所有形如 \(\bm w=\bm p+\bm v_h\) 的向量的集合,其中 \(\bm v_h\) 是齐次方程 \(\bm A\bm x=\bm0\) 的任意一个解。

证明以下两部分:

\((1.)\)\(\bm p\)\(\bm A\bm x=\bm b\) 的一个解,因此 \(\bm A\bm p=\bm b\),令 \(\bm v_h\) 是齐次方程 \(\bm A\bm x=\bm0\) 的任意解,\(\bm w=\bm p+\bm v_h\),证明 \(\bm w\) 也是 \(\bm A\bm x=\bm b\) 的一个解。

\(\bm A(\bm p+\bm v_h)=\bm A\bm p+\bm A\bm v_h=\bm b+\bm 0=\bm b\)

\((2.)\) 假设 \(\bm w\)\(\bm A\bm x=\bm b\) 的任意解,定义 \(\bm v_h=\bm w-\bm p\),证明 \(\bm v_h\)\(\bm A\bm x=\bm0\) 的一个解。

\(\bm A\bm v_h=\bm A(\bm w-\bm p)=\bm A\bm w-\bm A\bm p=\bm b-\bm b=\bm 0\),得证。

注意这只适用于 \(\bm A\bm x=\bm b\) 至少有一个非零解 \(\bm p\) 的前提下。当 \(\bm A\bm x=\bm b\) 无解时解集为空集。

把(相容方程组的)解集表示为参数向量形式

\(1.\) 把增广矩阵行化简为简化阶梯形。

\(2.\) 把每个基本变量用自由变量表示。

\(3.\) 把一般解 \(\bm x\) 表示成向量,如果有自由变量,其元素依赖于自由变量。

\(4.\)\(\bm x\) 分解为向量(元素为常数)的线性组合,用自由变量作为参数。

1.6 线性方程组的应用

实例来自经济学、化学和网络流。

用来处理经济学中的齐次线性方程组,配平化学方程式和解决网络流。

1.7 向量的线性相关性

我们将 1.5 节中的齐次线性方程组写成向量方程,例如

\[x_1\begin{bmatrix}1\\2\\3\end{bmatrix}+x_2\begin{bmatrix}4\\5\\6\end{bmatrix}+x_3\begin{bmatrix}2\\1\\0\end{bmatrix}=\begin{bmatrix}0\\0\\0\end{bmatrix} \]

我们主要研究平凡解是否是唯一解

定义 \(\;\) \(\mathbb{R}^n\) 中一组向量 \(\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\) 称为线性无关的,若向量方程

\[x_1\bm v_1+x_2\bm v_2+\cdots+x_p\bm v_p=\bm0 \]

仅有平凡解。向量组(集)\(\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\) 称为线性相关的,若存在不全为零的权 \(c_1,c_2,\cdots,c_p\),使

\[c_1\bm v_1+c_2\bm v_2+\cdots+c_p\bm v_p=\bm0 \]

则上一方程称为向量 \(\bm v_1,\bm v_2,\cdots,\bm v_p\) 之间的线性相关关系。一组向量线性相关当且仅当它不是线性无关的。简单起见可以说 \(\bm v_1,\bm v_2,\cdots,\bm v_p\) 线性相关,意思是向量组(集)\(\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\) 是线性相关组。对线性无关组类似。

\[\bm v_1=\begin{bmatrix}1\\2\\3\end{bmatrix},\bm v_2=\begin{bmatrix}4\\5\\6\end{bmatrix},\bm v_3=\begin{bmatrix}2\\1\\0\end{bmatrix} \]

\(\text{a}.\) 确定向量组 \(\{\bm v_1,\bm v_2,\bm v_3\}\) 是否线性相关。

\(\text{b}.\) 可能的话,求出 \(\bm v_1,\bm v_2,\bm v_3\) 的一个线性相关关系。


对增广矩阵进行行变换:

\[\begin{bmatrix}1&4&2&0 \\ 2&5&1&0 \\ 3&6&0&0\end{bmatrix}\sim\begin{bmatrix}1&4&2&0 \\ 0&-3&-3&0 \\ 0&0&0&0\end{bmatrix}\sim \begin{bmatrix}1&0&-2&0 \\ 0&1&1&0 \\ 0&0&0&0\end{bmatrix} \]

\(x_1,x_2\) 为基本变量,\(x_3\) 为自由变量,对于 \(\text{a}.\)\(\bm v_1,\bm v_2,\bm v_3\) 显然线性相关;对于 \(\text{b}.\),任取 \(x_3\) 的一个非零值即可得到 \(\bm v_1,\bm v_2,\bm v_3\) 的一个可能的线性相关关系。

矩阵各列的线性无关性

考虑矩阵 \(\bm A=\begin{bmatrix}\bm a_1&\bm a_2&\cdots&\bm a_n\end{bmatrix}\),矩阵方程 \(\bm A\bm x=\bm0\) 可以写成

\[x_1\bm a_1+x_2\bm a_2+\cdots+x_n\bm a_n=\bm0 \]

\(\bm A\) 的各列之间的每一个线性相关关系对应于方程 \(\bm A\bm x=\bm0\) 的一个非平凡解。有如下事实:

矩阵 \(\bm A\) 的各列线性无关,当且仅当方程 \(\bm A\bm x=\bm0\) 仅有平凡解。

一个或两个向量的集合

仅含一个向量 \(\bm v\) 的集合线性无关当且仅当 \(\bm v\) 不是零向量。

我们可以用观察法来确定两个向量是否线性相关。

两个向量的集合 \(\{\bm v_1,\bm v_2\}\) 线性相关,当且仅当其中一个向量是另一个向量的倍数。这个集合线性无关,当且仅当其中任一个向量都不是另一个向量的倍数。

从几何意义上,两个向量线性相关,当且仅当它们落在通过原点的同一条直线上。

两个或更多个向量的集合

定理 7(线性相关集的特征)

两个或更多个向量的集合 \(S=\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\) 线性相关,当且仅当 \(S\) 中至少有一个向量是其他向量的线性组合。事实上,若 \(S\) 线性相关,且 \(\bm v_1\ne \bm0\),则某个 \(\bm v_j(j>1)\) 是它前面向量 \(\bm v_1,\bm v_2,\cdots,\bm v_{j-1}\) 的线性组合。

定理 8

若一个向量组的向量个数超过每个向量的元素个数,那么这个向量组线性相关。就是说,\(\mathbb{R}^n\) 中任意向量组 \(\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\)\(p>n\) 时线性相关。

\(\bm A=\begin{bmatrix}\bm v_1&\bm v_2&\cdots&\bm v_p\end{bmatrix}\),则 \(\bm A\)\(n\times p\) 矩阵,方程 \(\bm A\bm x=\bm0\) 对应于 \(p\) 个未知量的 \(n\) 个方程。由于 \(p>n\),必定有自由变量,因此 \(\bm A\bm x=\bm0\) 必有非平凡解,\(\bm A\) 的各列线性相关。得证。

定理 9

\(\mathbb{R}^n\) 中向量组 \(S=\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\) 包含零向量,则它线性相关。

定理 10(线性相关集的特征)的证明

\(S\) 中某个 \(\bm v_j\) 是其他向量的线性组合,那么把方程两边减去 \(\bm v_j\) 就产生一个线性相关关系,其中 \(\bm v_j\) 的权为 \(-1\),于是 \(S\) 线性相关。

反之,设 \(S\) 线性相关。若 \(\bm v_1\) 为零,则它是 \(S\) 中其他向量的一个(平凡)线性组合。若 \(\bm v_1\) 不为零,存在 \(c_1,c_2,\cdots,c_p\) 不全为零,使得

\[c_1\bm v_1+c_2\bm v_2+\cdots+c_p\bm v_p=\bm0 \]

\(j\) 是使 \(c_j\ne0\) 的最大下标。若 \(j=1\),则 \(c_1\bm v_1=\bm0\),这是不可能的。故 \(j>1\),且

\[\begin{aligned} c_1\bm v_1+\cdots+c_j\bm v_j+0\bm v_{j+1}+\cdots+0\bm v_p &= \bm0 \\ c_j\bm v_j &= -c_1\bm v_1-\cdots-c_{j-1}\bm v_{j-1} \\ \bm v_j &= (-\frac{c_1}{c_j})\bm v_1+\cdots+(-\frac{c_{j-1}}{c_j})\bm v_{j-1} \end{aligned} \]

1.8 线性变换简介

矩阵方程 \(\bm A\bm x=\bm b\) 和对应的向量方程 \(x_1\bm a_1+x_2\bm a_2+\cdots+x_n\bm a_n=\bm b\) 之间的差别仅仅是记号上的不同。然而,矩阵方程 \(\bm A\bm x=\bm b\) 出现在线性代数和应用中并不仅仅是直接与向量的线性组合问题有关。通常把矩阵 \(\bm A\) 当作一种对象,它通过乘法“作用”于向量 \(\bm x\),产生的新向量称为 \(\bm A\bm x\)

例如 \(\bm A\)\(2\times 4\) 矩阵,\(\bm x\)\(\mathbb{R}^4\) 中向量,\(\bm b=\bm A\bm x\)\(\mathbb{R}^2\) 中向量,那么解方程 \(\bm A\bm x=\bm b\) 就是要求出 \(\mathbb{R}^4\) 中所有经过乘以 \(\bm A\) 的“作用”后变为 \(\mathbb{R}^2\)\(\bm b\) 的向量 \(\bm x\)

\(\bm x\)\(\bm A\bm x\) 的对应是由一个向量集到另一个向量集的函数

\(\mathbb{R}^n\)\(\mathbb{R}^m\) 的一个变换(或称函数映射\(T\) 是一个规则,它把 \(\mathbb{R}^n\) 中每个向量 \(\bm x\) 对应以 \(\mathbb{R}^m\) 中的一个向量 \(T(\bm x)\)。集 \(\mathbb{R}^n\) 称为 \(T\)定义域,而 \(\mathbb{R}^m\) 称为 \(T\)上域(或取值空间)。符号 \(T:\mathbb{R}^n\rightarrow \mathbb{R}^m\) 说明 \(T\) 的定义域是 \(\mathbb{R}^n\) 而上域是 \(\mathbb{R}^m\)。对于 \(\mathbb{R}^n\) 中向量 \(\bm x\)\(\mathbb{R}^m\) 中向量 \(T(\bm x)\) 称为 \(\bm x\)(在 \(T\) 作用下)的。所有像 \(T(\bm x)\) 的集合称为 \(T\)值域

矩阵变换

\(\mathbb{R}^n\) 中每个 \(\bm x\)\(T(\bm x)\)\(\bm A\bm x\) 计算得到,其中 \(\bm A\)\(m\times n\) 矩阵。简单起见,有时将这样一个矩阵变换记为 \(\bm x\rightarrow \bm A\bm x\)。此时 \(T\) 的定义域为 \(\mathbb{R}^n\),上域为 \(\mathbb{R}^m\),值域为 \(\bm A\) 的所有列的所有线性组合的集合。

\(\bm A\)\(3\times 2\) 矩阵,\(\bm u\)\(\mathbb{R}^2\) 中向量,\(\bm b,\bm c\)\(\mathbb{R}^3\) 中向量,定义变换 \(T:\mathbb{R}^2\rightarrow \mathbb{R}^3\)\(T(\bm x)=\bm A\bm x\)

\(\text{a}.\)\(\bm u\) 在变换 \(T\) 下的像 \(T(\bm u)\)

\(\text{b}.\)\(\mathbb{R}^2\) 中的向量 \(\bm x\),使它在 \(T\) 下的像是向量 \(\bm b\)

\(\text{c}.\) 是否由其他向量在 \(T\) 下的像也是 \(\bm b\)

\(\text{d}.\) 确定 \(\bm c\) 是否属于变换 \(\bm T\) 的值域。


对于 \(\text{a}\),计算 \(T(\bm u)=\bm A\bm u\) 即可。

对于 \(\text{b}\),解 \(T(\bm x)=\bm b\),即解 \(\bm A\bm x=\bm b\)

对于 \(\text{c}\),确定方程 \(\bm A\bm x=\bm b\) 的解是否唯一即可。

对于 \(\text{d}\),确定方程 \(\bm A\bm x=\bm c\) 是否相容即可。

\(\text{c}\) 的问题是线性方程组中的唯一性问题,可以用矩阵变换的语言表述:\(\bm b\) 是否是 \(\mathbb{R}^n\) 中唯一的 \(\bm x\) 的像?\(\text{d}\)存在性问题:是否存在 \(\mathbb{R}^n\) 中的 \(\bm x\) 使它的像为 \(\bm c\)

下面两个矩阵变换有很明确的几何意义。

\(\bm A=\begin{bmatrix}1&0&0 \\ 0&1&0 \\ 0&0&0\end{bmatrix}\),则变换 \(\bm x\mapsto \bm A\bm x\)\(\mathbb{R}^3\) 中的点投影\(x_1x_2\) 坐标平面上,因为

\[\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}\mapsto\begin{bmatrix}1&0&0 \\ 0&1&0 \\ 0&0&0\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=\begin{bmatrix}x_1\\x_2\\0\end{bmatrix} \]

该变换称为投影变换

\(\bm A=\begin{bmatrix}1&2\\0&1\end{bmatrix}\),变换 \(T:\mathbb{R}^2\rightarrow \mathbb{R}^2\) 定义为 \(T(\bm x)=\bm A\bm x\),称为剪切变换

对于一个 \(2\times 2\) 的正方形,左上角 \(\bm u=\begin{bmatrix}0\\2\end{bmatrix}\),右上角 \(\bm v=\begin{bmatrix}2\\2\end{bmatrix}\),那么 \(T(\bm u)=\begin{bmatrix}4\\2\end{bmatrix}\)\(T(\bm v)=\begin{bmatrix}6\\2\end{bmatrix}\)。可以发现正方形的底保持不变,正方形的顶拉向右边。

线性变换

1.4 节定理 5 表明,若 \(\bm A\)\(m\times n\) 矩阵,则变换 \(\bm x\mapsto \bm A\bm x\) 有以下性质:

\[\bm A(\bm u+\bm v)=\bm A\bm u+\bm A\bm v,\bm A(c\bm u)=c\bm A\bm u \]

\(\bm u,\bm v\)\(\mathbb{R}^n\) 中任意向量,\(c\) 为任意标量。我们用函数记号来表示这些性质。

定义 \(\;\) 变换(或映射)\(T\) 称为线性的,若

\((\text{i})\)\(T\) 的定义域中一切 \(\bm u,\bm v\)\(T(\bm u+\bm v)=T(\bm u)+T(\bm v)\)

\((\text{ii})\)\(T\) 的定义域中一切 \(\bm u\) 和标量 \(c\)\(T(c\bm u)=cT(\bm u)\)

每个矩阵变换都是线性变换。

线性变换保持向量的加法运算与标量乘法运算。有如下性质:

\(T\) 是线性变换,则

\[T(\bm0)=\bm0 \]

且对 \(T\) 的定义域中一切向量 \(\bm u\)\(\bm v\) 以及标量 \(c\)\(d\) 有:

\[T(c\bm u+d\bm v)=cT(\bm u)+dT(\bm v) \]

推广上式有:

\[T(c_1\bm v_1+c_2\bm v_2+\cdots+c_p\bm v_p)=c_1T(\bm v_1)+c_2T(\bm v_2)+\cdots+c_pT(\bm v_p) \]

该式在工程和物理中称为叠加原理

给定标量 \(r\),定义 \(T:\mathbb{R}^2\rightarrow \mathbb{R}^2\)\(T(\bm x)=r\bm x\)。当 \(0\le r\le 1\) 时,\(T\) 称为收缩变换,当 \(r>1\) 时,\(T\) 称为拉伸变换。证明 \(T\) 是线性变换。


\(\bm u,\bm v\) 属于 \(\mathbb{R}^2\)\(c,d\) 为标量,则

\[\begin{aligned}T(c\bm u+d\bm v)&=r(c\bm u+d\bm v) \\ &=rc\bm u+rd\bm v \\ &=c(r\bm u)+d(r\bm v) \\ &=cT(\bm u)+dT(\bm v)\end{aligned} \]

由定义得证。

1.9 线性变换的矩阵

下列讨论指出,从 \(\mathbb{R}^n\)\(\mathbb{R}^m\) 的每一个线性变换都是一个矩阵变换 \(\bm x\mapsto \bm A\bm x\),变换 \(T\) 的重要性质都归结为 \(\bm A\) 的性质。寻找矩阵 \(\bm A\) 的关键是了解 \(T\) 完全由它对 \(n\times n\) 单位矩阵 \(\bm I_n\) 的各列的作用所决定。

\(\bm I_2\) 的两列是 \(\bm e_1=\begin{bmatrix}1\\0\end{bmatrix}\)\(\bm e_2=\begin{bmatrix}0\\1\end{bmatrix}\),设 \(T\)\(\mathbb{R}^2\)\(\mathbb{R}^3\) 的线性变换,满足

\[T(\bm e_1)=\begin{bmatrix}5\\-7\\2\end{bmatrix},T(\bm e_2)=\begin{bmatrix}-3\\8\\0\end{bmatrix} \]

求出 \(\mathbb{R}^2\) 中任意向量 \(\bm x\) 的像的公式。


\(\bm x=x_1\bm e_1+x_2\bm e_2\),由于 \(T\) 是线性变换:

\[T(\bm x)=x_1T(\bm e_1)+x_2T(\bm e_2)=x_1\begin{bmatrix}5\\-7\\2\end{bmatrix}+x_2\begin{bmatrix}-3\\8\\0\end{bmatrix}=\begin{bmatrix}5x_1-3x_2\\-7x_1+8x_2\\2x_1+0\end{bmatrix} \]

上式把 \(T(\bm x)\) 表示为 \(T(\bm e_1)\)\(T(\bm e_2)\) 的线性组合,将这些向量作为 \(\bm A\) 的各列,写为

\[T(\bm x)=\begin{bmatrix}T(\bm e_1)&T(\bm e_2)\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=\bm A\bm x \]

定理 10

\(T:\mathbb{R}^n\rightarrow\mathbb{R}^m\) 为线性变换,则存在唯一的矩阵 \(\bm A\),使得对 \(\mathbb{R}^n\) 中一切 \(\bm x\)

\[T(\bm x)=\bm A\bm x \]

事实上,\(\bm A\)\(m\times n\) 矩阵,它的第 \(j\) 列是向量 \(T(\bm e_j)\),其中 \(\bm e_j\)\(\mathbb{R}^n\) 中单位矩阵 \(\bm I_n\) 的第 \(j\) 列:

\[\bm A=\begin{bmatrix}T(\bm e_1)&T(\bm e_2)&\cdots&T(\bm e_n)\end{bmatrix} \]

上式中的矩阵 \(\bm A\) 称为线性变换 \(T\) 的标准矩阵

存在性:记 \(\bm x=\bm I_n\bm x=x_1\bm e_1+x_2\bm e_2+\cdots+x_n\bm e_n\),由 \(T\) 是线性变换:

\[\begin{aligned}T(\bm x) &=x_1T(\bm e_1)+x_2T(\bm e_2)+\cdots+x_nT(\bm e_n) \\ &=\begin{bmatrix}T(\bm e_1)&T(\bm e_2)&\cdots&T(\bm e_n)\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}=\bm A\bm x \end{aligned} \]

唯一性:设对某个 \(m\times n\) 矩阵 \(\bm B\)\(T(\bm x)=\bm B\bm x\),即证明若 \(\bm A\)\(T\) 的标准矩阵,则 \(\bm A=\bm B\)

\(\bm e_j\)\(\bm I_n\) 的第 \(j\) 列,则 \(\bm B\bm e_j=T(\bm e_j)\)\(\bm B\) 的第 \(j\) 列,又 \(\bm A\)\(T\) 的标准矩阵,这说明 \(\bm A\)\(\bm B\) 有相同的列,于是 \(\bm A=\bm B\)

得证。

我们已经得知由 \(\mathbb{R}^n\)\(\mathbb{R}^m\) 的每个线性变换都可看作矩阵变换,反之亦然。术语线性变换强调映射的性质,而矩阵变换描述这样的映射如何实现。

对拉伸变换 \(T(\bm x)=3\bm x\),其中 \(x\in \mathbb{R}^2\) 求标准矩阵 \(\bm A\)


写出

\[T(\bm e_1)=3\bm e_1=\begin{bmatrix}3\\0\end{bmatrix}\quad T(\bm e_2)=3\bm e_2=\begin{bmatrix}0\\3\end{bmatrix} \]

那么有

\[\bm A=\begin{bmatrix}3&0\\0&3\end{bmatrix} \]

\(\mathbb{R}^2\) 中的几何线性变换

这些分为四类:对称、收缩与拉伸、剪切和投影。

对称:关于 \(x_1\) 轴的对称;关于 \(x_2\) 轴的对称;关于直线 \(x_2=x_1\) 的对称;关于直线 \(x_2=-x_1\) 的对称;关于原点的对称。

收缩与拉伸:水平收缩与拉伸;垂直收缩与拉伸。

剪切:水平剪切;垂直剪切。

投影:投影到 \(x_1\) 轴上;投影到 \(x_2\) 轴上。

这些变换均能用 \(2\times 2\) 的标准矩阵表示;其他的变换可以通过以上变换通过复合构造出来。

存在性与唯一性问题

定义 1 \(\;\) 映射 \(T:\mathbb{R}^n\rightarrow\mathbb{R}^m\) 称为到 \(\mathbb{R}^m\) 上的映射,若 \(\mathbb{R}^m\) 中每个 \(\bm b\)\(\mathbb{R}^n\) 中至少一个 \(\bm x\) 的像(也称为满射)。

等价地,当 \(T\) 的值域是整个上域 \(\mathbb{R}^m\) 时,\(T\) 是到 \(\mathbb{R}^m\) 上的。“\(T\) 是否把 \(\mathbb{R}^n\) 映射到 \(\mathbb{R}^m\) 上?”是存在性问题。映射 \(T\) 不是到 \(\mathbb{R}^m\) 上的,若 \(\mathbb{R}^m\) 中有某个 \(\bm b\) 使方程 \(T(\bm x)=\bm b\) 无解。

定义 2 \(\;\) 映射 \(T:\mathbb{R}^m\rightarrow\mathbb{R}^m\) 称为一对一映射,若 \(\mathbb{R}^m\) 中每个 \(\bm b\)\(\mathbb{R}^n\) 中至多一个 \(\bm x\) 的像(也称为单射)。

等价地,\(T\) 是一对一的,若对 \(\mathbb{R}^m\) 中每个 \(\bm b\),方程 \(T(\bm x)=\bm b\) 有唯一的解或没有解。“\(T\) 是否是一对一的?”是唯一性问题。映射 \(T\) 不是一对一的,若 \(\mathbb{R}^m\) 中某个 \(\bm b\)\(\mathbb{R}^n\) 中多个向量的像。若没有这样的 \(\bm b\)\(T\) 就是一对一的。

例如,投影变换不是一对一的;而对称、收缩与拉伸、剪切是一对一的。

设线性变换 \(T\) 的标准矩阵

\[\bm A=\begin{bmatrix}1&-4&8&1 \\ 0&2&-1&3 \\ 0&0&0&5\end{bmatrix} \]

\(T\) 是否把 \(\mathbb{R}^4\) 映射到 \(\mathbb{R}^3\) 上?\(T\) 是否是一对一映射?


\(\bm A\) 已是阶梯形,发现 \(\bm A\) 在每一行有主元位置,由 1.4 节定理 4 可知对于 \(\mathbb{R}^3\) 中每个 \(\bm b\)\(\bm A\bm x=\bm b\) 相容。也就是说 \(T\)\(\mathbb{R}^4\) 映射到 \(\mathbb{R}^3\) 上。

由于方程 \(\bm A\bm x=\bm b\) 有一个自由变量,每个 \(\bm b\) 都有多个 \(\bm x\) 的像,故 \(T\) 不是一对一的。

定理 11

\(T:\mathbb{R}^n\rightarrow \mathbb{R}^m\) 为线性变换,则 \(T\) 是一对一的当且仅当方程 \(\bm A\bm x=\bm0\) 仅有平凡解。

注意证明定理“\(P\) 为真当且仅当 \(Q\) 为真”,须明确以下两点:\((1)\)\(P\) 为真,则 \(Q\) 为真;\((2)\)\(Q\) 为真,则 \(P\) 为真。第二个要求也需通过证明 \(\text{(2a)}\) 来满足:若 \(P\) 为假,则 \(Q\) 为假(这称作换位推理)。

\(T\) 是线性的,故 \(T(\bm0)=\bm0\)。若 \(T\) 是一对一的,则方程 \(T(\bm x)=\bm0\) 至多有一个解,因此只有平凡解。若 \(T\) 不是一对一的,则 \(\mathbb{R}^m\) 中某个 \(\bm b\) 是至少 \(\mathbb{R}^n\) 中两个相异向量(设为 \(\bm u\)\(\bm v\))的像,由 \(T\) 是线性的:

\[T(\bm u-\bm v)=T(\bm u)-T(\bm v)=\bm b-\bm b=\bm0 \]

因为 \(\bm u-\bm v\) 不是零,因此方程 \(T(\bm x)=\bm0\) 有多于一个解。于是定理中两个条件同时成立或同时不成立。

得证。

定理 12

\(T:\mathbb{R}^n\rightarrow\mathbb{R}^m\) 是线性变换,设 \(\bm A\)\(T\) 的标准矩阵,则

\(\text{a}.\) \(T\)\(\mathbb{R}^n\) 映射到 \(\mathbb{R}^m\) 上,当且仅当 \(\bm A\) 的列生成 \(\mathbb{R}^m\)

\(\text{b}.\) \(T\) 是一对一的,当且仅当 \(\bm A\) 的列线性无关。

注意若知“\(P\) 当且仅当 \(Q\)”和“\(Q\) 当且仅当 \(R\)”可推出“\(P\) 当且仅当 \(R\)”。

\(\text{a}.\) 由 1.4 节定理 4,\(\bm A\) 的列生成 \(\mathbb{R}^m\) 当且仅当方程 \(\bm A\bm x=\bm b\) 对每个 \(\bm b\) 都相容。故 \(T\)\(\mathbb{R}^n\) 映射到 \(\mathbb{R}^m\) 上。

\(\text{b}.\) 方程 \(T(\bm x)=\bm0\)\(\bm A\bm x=\bm0\) 仅是记法不同。由定理 11,\(T\) 是一对一的当且仅当 \(\bm A\bm x=\bm0\) 仅有平凡解。我们在 1.7 节中已说明这等价于 \(\bm A\) 的各列线性无关。

得证。

以下我们将列向量写成行的形式,如 \(\bm x=(x_1,x_2)\),将 \(T(\bm x)\) 写成 \(T(x_1,x_2)\) 以代替更正式的 \(T((x_1,x_2))\)

\(T(x_1,x_2)=(3x_1+x_2,5x_1+7x_2,x_1+3x_2)\),证明 \(T\) 是一对一变换。\(T\) 是否将 \(\mathbb{R}^2\) 映射到 \(\mathbb{R}^3\) 上?


\[T(\bm c)=\begin{bmatrix}3x_1+x_2\\5x_1+7x_2\\x_1+3x_2\end{bmatrix}=\begin{bmatrix}3&1\\5&7\\1&3\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix} \]

我们已经得到线性变换 \(T\) 的标准矩阵 \(\bm A\)

由于 \(\bm A\) 的列线性无关,\(T\) 是一对一的。

由于 \(\bm A\) 只有 \(2\) 列,其各列不能生成 \(\mathbb{R}^3\),对应的线性变换不是映射到 \(\mathbb{R}^3\) 上的。

\(T:\mathbb{R}^2\rightarrow \mathbb{R}^2\) 为线性变换,先做水平剪切变换,将 \(\bm e_2\) 映射为 \(\bm e_2-0.5\bm e_1\)(但 \(\bm e_1\) 不变),然后作关于 \(x_2\) 轴的对称变换。求 \(T\) 的标准矩阵。


试确定 \(\bm e_1\)\(\bm e_2\) 的像的最终位置,发现 \(T(\bm e_1)=-\bm e_1\)\(T(\bm e_2)=\bm e_2+0.5\bm e_1\)(关于 \(x_2\) 轴的对称变换将 \(\bm e_1\) 变为 \(-\bm e_1\),而 \(\bm e_2\) 不变),故 \(T\) 的标准矩阵

\[\begin{bmatrix}T(\bm e_1)&T(\bm e_2)\end{bmatrix}=\begin{bmatrix}-\bm e_1&\bm e_2+0.5\bm e_1\end{bmatrix}=\begin{bmatrix}-1&0.5\\0&1\end{bmatrix} \]

1.10 商业、科学和工程中的线性模型

很专业的东西,先略过了。

posted @ 2024-03-11 22:11  SError  阅读(44)  评论(0编辑  收藏  举报