线性代数及其应用 第二章

第 2 章 矩阵代数

2.1 矩阵运算

\(\bm A\)\(m\times n\) 矩阵,用 \(a_{ij}\) 表示 \(\bm A\) 的第 \(i\) 行第 \(j\) 列的元素,称为 \(\bm A\)\((i,j)\) 元素。\(\bm A\) 的各列是 \(\mathbb{R}^m\) 中的向量,用黑体字母 \(\bm a_1,\bm a_2,\cdots,\bm a_n\) 表示,写作 \(\bm A=\begin{bmatrix}\bm a_1&\bm a_2&\cdots&\bm a_n\end{bmatrix}\)。注意 \(a_{ij}\) 是第 \(j\) 个列向量 \(\bm a_j\) 从上面算起的第 \(i\) 个元素。

\(m\times n\) 矩阵 \(\bm A=\begin{bmatrix}a_{ij}\end{bmatrix}\)对角线元素\(a_{11},a_{22},a_{33},\cdots\),它们组成 \(\bm A\)主对角线对角矩阵是一个方阵,它的非对角线元素全是 \(0\)(例如 \(\bm I_n\))。元素全是零的 \(m\times n\) 矩阵称为零矩阵,用 \(\bm0\) 表示。零矩阵的维数通常可由上下文得知,否则用 \(\bm0_{m\times n}\) 表示。

和与标量乘法

定理 1

\(\bm A,\bm B,\bm C\) 是相同维数的矩阵,\(r\)\(s\) 为数,则有

\(\text{a}.\) \(\bm A+\bm B=\bm B+\bm A\)

\(\text{b}.\) \((\bm A+\bm B)+\bm C=\bm A+(\bm B+\bm C)\)

\(\text{c}.\) \(\bm A+\bm0=\bm A\)

\(\text{d}.\) \(r(\bm A+\bm B)=r\bm A+r\bm B\)

\(\text{e}.\) \((r+s)\bm A=r\bm A+s\bm A\)

\(\text{f}.\) \(r(s\bm A)=(rs)\bm A\)

为证明这些,只需看左右两边的每列是否分别相同即可。

矩阵乘法

当矩阵 \(\bm B\) 乘以向量 \(\bm x\),它将 \(\bm x\) 变换为向量 \(\bm B\bm x\)。若这个向量又乘以矩阵 \(\bm A\),则得到的向量是 \(\bm A(\bm B\bm x)\)

于是 \(\bm A(\bm B\bm x)\) 是由 \(\bm x\)复合映射变换所得,欲将此复合映射表示为乘以一个矩阵的变换,此矩阵记为 \(\bm A\bm B\),即

\[\bm A(\bm B\bm x)=(\bm A\bm B)\bm x \]

\(\bm A\)\(m\times n\) 矩阵,\(\bm B\)\(n\times p\) 矩阵,\(\bm x\in\mathbb{R}^p\)\(\bm B\) 的各列为 \(\bm b_1,\bm b_2,\cdots,\bm b_p\)\(\bm x\) 的元素为 \(x_1,x_2,\cdots,x_p\),则

\[\bm B\bm x=x_1\bm b_1+x_2\bm b_2+\cdots+x_p\bm b_p \]

由乘以 \(\bm A\) 的线性性质,

\[\bm A(\bm B\bm x)=\bm A(x_1\bm b_1)+\bm A(x_2\bm b_2)+\cdots+\bm A(x_p\bm b_p)=x_1\bm A\bm b_1+x_2\bm A\bm b_2+\cdots+x_p\bm A\bm b_p \]

向量 \(\bm A(\bm B\bm x)\) 是向量 \(\bm A\bm b_1,\bm A\bm b_2,\cdots,\bm A\bm b_p\) 的线性组合,以 \(\bm x\) 的元素为权,将这些向量表示成一个矩阵的各列:

\[\bm A(\bm B\bm x)=\begin{bmatrix}\bm A\bm b_1&\bm A\bm b_2&\cdots&\bm A\bm b_p\end{bmatrix}\bm x \]

于是乘以矩阵 \(\begin{bmatrix}\bm A\bm b_1&\bm A\bm b_2&\cdots&\bm A\bm b_p\end{bmatrix}\)\(\bm x\) 变换为 \(\bm A(\bm B\bm x)\),我们已找到所需矩阵。

定义 \(\;\)\(\bm A\)\(m\times n\) 矩阵,\(\bm B\)\(n\times p\) 矩阵,\(\bm B\) 的列是 \(\bm b_1,\bm b_2,\cdots,\bm b_p\),则乘积 \(\bm A\bm B\)\(m\times p\) 矩阵,它的各列是 \(\bm A\bm b_1,\bm A\bm b_2,\cdots,\bm A\bm b_p\),即

\[\bm A\bm B=\bm A\begin{bmatrix}\bm b_1&\bm b_2&\cdots&\bm b_p\end{bmatrix}=\begin{bmatrix}\bm A\bm b_1&\bm A\bm b_2&\cdots&\bm A\bm b_p\end{bmatrix} \]

\(\bm A\bm B\) 的定义易知如下事实:

\(\bm A\bm B\) 的每一列都是 \(\bm A\) 的各列的线性组合,以 \(\bm B\) 的对应列的元素为权。

为使线性组合 \(\bm A\bm b_1\) 有定义,\(\bm A\) 的列数等于 \(\bm B\) 的行数。由定义,\(\bm A\bm B\) 的行数等于 \(\bm A\) 的行数,列数等于 \(\bm B\) 的列数。

计算 \(\bm A\bm B\) 的行列法则

若乘积 \(\bm A\bm B\) 有定义,则 \(\bm A\bm B\) 的第 \(i\) 行第 \(j\) 列的元素是 \(\bm A\) 的第 \(i\) 行与 \(\bm B\) 的第 \(j\) 列对应元素乘积之和。若 \((\bm A\bm B)_{ij}\) 表示 \(\bm A\bm B\)\((i,j)\) 元素,\(\bm A\)\(m\times n\) 矩阵,则

\[(\bm A\bm B)_{ij}=a_{i1}b_{ij}+a_{i2}b_{2j}+\cdots+a_{in}b_{bj} \]

若我们需要求 \(\bm A\bm B\) 的第 \(i\) 行,它其实就是 \(\bm A\) 的第 \(i\) 行和 \(\bm B\) 的各列相乘得到的结果。记 \(\mathrm{row}_i(\bm A)\) 表示矩阵 \(\bm A\) 的第 \(i\) 行,则

\[\mathrm{row}_i(\bm A\bm B)=\mathrm{row}_i(\bm A)\cdot \bm B \]

假设 \(m\times n\) 矩阵 \(\bm A\) 的所有行相同,\(n\times p\) 矩阵 \(\bm B\) 的所有列相同。\(\bm A\bm B\) 中的元素是怎样的?


\[\bm A\bm B=\begin{bmatrix}\bm A\bm b_1&\bm A\bm b_2&\cdots&\bm A\bm b_p\end{bmatrix} \]

于是 \(\bm A\bm B\) 的各列相同,又

\[\mathrm{row}_i(\bm A\bm B)=\mathrm{row}_i(\bm A)\cdot \bm B \]

于是 \(\bm A\bm B\) 的各行相同,可知 \(\bm A\bm B\) 的各元素相同。

矩阵乘法的性质

定理 2

\(\bm A\)\(m\times n\) 矩阵,\(\bm B\)\(\bm C\) 的维数使下列各式的乘积由定义。

\(\text{a}.\) \(\bm A(\bm B\bm C)=(\bm A\bm B)\bm C\)(乘法结合律)

\(\text{b}.\) \(\bm A(\bm B+\bm C)=\bm A\bm B+\bm A\bm C\)(乘法左分配律)

\(\text{c}.\) \((\bm B+\bm C)\bm A=\bm B\bm A+\bm C\bm A\)(乘法右分配律)

\(\text{d}.\) \(r(\bm A\bm B)=(r\bm A)\bm B=\bm A(r\bm B)\)\(r\) 为任意数

\(\text{e}.\) \(\bm I_m\bm A=\bm A=\bm A\bm I_n\)(矩阵乘法的恒等式)

关于 \((\text{b})\sim(\text{e})\) 的证明略去。

对于 \((\text{a})\),由于矩阵乘法对应于线性变换的复合,而函数的复合是可结合的,可得该性质。

基于矩阵乘积的“列定义”的证明:设

\[\bm C=\begin{bmatrix}\bm c_1&\bm c_2&\cdots\bm c_p\end{bmatrix} \]

由矩阵乘法定义

\[\bm B\bm C=\begin{bmatrix}\bm B\bm c_1&\bm B\bm c_2&\cdots&\bm B\bm c_p\end{bmatrix} \]

\[\bm A(\bm B\bm C)=\begin{bmatrix}\bm A(\bm B\bm c_1)&\bm A(\bm B\bm c_2)&\cdots&\bm A(\bm B\bm c_p)\end{bmatrix} \]

\(\bm A(\bm B\bm x)=(\bm A\bm B)\bm x\)

\[\bm A(\bm B\bm C)=\begin{bmatrix}(\bm A\bm B)\bm c_1&(\bm A\bm B)\bm c_2&\cdots&(\bm A\bm B)\bm c_p\end{bmatrix}=(\bm A\bm B)\bm C \]

得证。

注意:

  • 一般情况下,\(\bm A\bm B\ne \bm B\bm A\)

  • 消去律对矩阵乘法不成立,即若 \(\bm A\bm B=\bm A\bm C\),一般情况下 \(\bm B=\bm C\) 并不成立。

  • 若乘积 \(\bm A\bm B\) 是零矩阵,一般情况下,不能断定 \(\bm A=\bm0\)\(\bm B=\bm0\)

矩阵的乘幂

\(\bm A\)\(n\times n\) 矩阵,\(k\in\mathbb{N}^+\),用 \(\bm A^k\) 表示 \(k\)\(\bm A\) 的乘积。

\(\bm A\) 不是零矩阵,且 \(\bm x\in\mathbb{R}^n\),则 \(\bm A^k\bm x\) 表示 \(\bm x\)\(\bm A\) 连续左乘 \(k\) 次。特别的,\(\bm A^0\bm x=\bm x\),因此 \(\bm A^0\) 被解释为单位矩阵。

矩阵的转置

给定 \(m\times n\) 矩阵 \(\bm A\),则 \(\bm A\)转置是一个 \(n\times m\) 矩阵,用 \(\bm A^T\) 表示,它的列是由 \(\bm A\) 的对应行构成的。

例如有

\[\bm A=\begin{bmatrix}a&b\\c&d\end{bmatrix}\quad\bm C=\begin{bmatrix}1&1&1&1\\-3&5&-2&7\end{bmatrix} \]

那么

\[\bm A^T=\begin{bmatrix}a&c\\b&d\end{bmatrix}\quad\bm C^T=\begin{bmatrix}1&-3\\1&5\\1&-2\\1&7\end{bmatrix} \]

定理 3

\(\bm A\)\(\bm B\) 表示矩阵,其维数使下列和与积有定义,则

\(\text{a.}\) \((\bm A^T)^T=\bm A\)

\(\text{b.}\) \((\bm A+\bm B)^T=\bm A^T+\bm B^T\)

\(\text{c}.\) 对任意数 \(r\)\((r\bm A)^T=r\bm A^T\)

\(\text{d}.\) \((\bm A\bm B)^T=\bm B^T\bm A^T\)

\(\text{a}\sim\text{c}\) 是简单的。对于 \(\text{d}\),计算两边的 \((i,j)\) 元素是否相同即可。将其推广至多个矩阵:

矩阵的乘积的转置等于它们的转置的乘积,但相乘的顺序相反

2.2 矩阵的逆

一个 \(n\times n\) 矩阵 \(\bm A\)可逆的,若存在一个 \(n\times n\) 矩阵 \(\bm C\) 使

\[\bm C\bm A=\bm I\quad且\quad\bm A\bm C=\bm I \]

其中 \(\bm I=\bm I_n\),这时称 \(\bm C\)\(\bm A\)

\(\bm C\)\(\bm A\) 唯一确定,因为若 \(\bm B\)\(\bm A\) 的另一个逆,则 \(\bm B=\bm B\bm I=\bm B(\bm A\bm C)=(\bm B\bm A)\bm C=\bm I\bm C=\bm C\)。于是若 \(\bm A\) 可逆,它的逆是唯一的,记为 \(\bm A^{-1}\),那么

\[\bm A^{-1}\bm A=\bm I\quad且\quad\bm A\bm A^{-1}=\bm I \]

不可逆矩阵有时称为奇异矩阵,而可逆矩阵也称为非奇异矩阵

能不能说一个 \(m\times n\) 矩阵 \(\bm A\) 是可逆的,如果存在 \(n\times m\) 矩阵 \(\bm C,\bm D\) 使 \(\bm C\bm A=\bm I_n\)\(\bm A\bm D=\bm I_m\)?事实上我们能推出 \(\bm A\) 是方阵,且 \(\bm C=\bm D\),因此 \(\bm A\) 是可逆的定义同上。

\(\bm C\bm A=\bm I_n\),对于方程 \(\bm A\bm x=\bm0\),可知 \(\bm C\bm A\bm x=\bm0\Rightarrow \bm I_n\bm x=\bm0\Rightarrow \bm x=\bm0\),于是该方程只有平凡解。\(\bm A\) 的列数不可以多于行数,否则会出现自由变量。

\(\bm A\bm D=\bm I_m\)\(\bm b\in\mathbb{R}^m\),对于方程 \(\bm A\bm x=\bm b\),有 \(\bm A\bm D\bm b=\bm b\),于是 \(\bm x=\bm D\bm b\) 可作为方程的一解。故对于任意 \(\bm b\),方程 \(\bm A\bm x=\bm b\) 有解。\(\bm A\) 的行数不可以多于列数,否则 \(\bm A\) 的各列不能生成 \(\mathbb{R}^m\)

于是我们得到 \(m=n\),即 \(\bm A\) 为方阵。又 \(\bm C\bm A\bm D=\bm I_n\bm D=\bm C\bm I_m\),那么 \(\bm C=\bm D\)

定理 4

\(\bm A=\begin{bmatrix}a&b\\c&d\end{bmatrix}\)。若 \(ad-bc\ne 0\),则 \(\bm A\) 可逆且

\[\bm A^{-1}=\frac{1}{ad-bc}\begin{bmatrix}d&-b\\-c&a\end{bmatrix} \]

\(ad-bc=0\),则 \(\bm A\) 不可逆。

\(ad-bc\ne 0\),有 \(\begin{bmatrix}a&b\\c&d\end{bmatrix}\times\begin{bmatrix}d&-b\\-c&a\end{bmatrix}=\begin{bmatrix}d&-b\\-c&a\end{bmatrix}\times\begin{bmatrix}a&b\\c&d\end{bmatrix}=\begin{bmatrix}ad-bc&0\\0&ad-bc\end{bmatrix}\),于是 \(\bm A^{-1}\) 的公式是正确的。

只需证明 \(ad-bc=0\)\(\bm A\) 不可逆。

\(a=b=0\),这与前面推知的“若 \(\bm A\bm D=\bm I_m\),则 \(\forall b\in\mathbb{R}^m\),方程 \(\bm A\bm x=\bm b\) 有解”矛盾。

\(a,b\) 不全为 \(0\),这说明 \(\bm A\) 的两个列向量共线,这与前面推知的“若 \(\bm C\bm A=\bm I_n\),则方程 \(\bm A\bm x=\bm0\) 只有平凡解”矛盾。

得证。

\(ad-bc\) 称为 \(\bm A\) 的行列式,记为

\[\det\bm A=ad-bc \]

定理 4 说明 \(2\times 2\) 矩阵 \(\bm A\) 可逆当且仅当 \(\det\bm A\ne0\)

定理 5

\(\bm A\) 是可逆 \(n\times n\) 矩阵,则对 \(\mathbb{R}^n\) 中的每一 \(\bm b\),方程 \(\bm A\bm x=\bm b\) 有唯一解 \(x=\bm A^{-1}\bm b\)

\(\mathbb{R}^n\) 中任意 \(\bm b\),方程 \(\bm A\bm x=\bm b\) 有解,这是因为若以 \(\bm A^{-1}\bm b\) 代替 \(\bm x\),有 \(\bm A\bm x=\bm A(\bm A^{-1}\bm b)=(\bm A\bm A^{-1})\bm b=\bm b\),所以 \(\bm A^{-1}\bm b\) 是解。为证明解是唯一的,只需证明若 \(\bm u\) 是任意一个解,则 \(\bm u\) 必为 \(\bm A^{-1}\bm b\)

\(\bm A\bm u=\bm b\),那么

\[\begin{aligned}\bm A^{-1}\bm A\bm u&=\bm A^{-1}\bm b \\ \bm I\bm u&=\bm A^{-1}\bm b \\ \bm u&=\bm A^{-1}\bm b\end{aligned} \]

证毕。

定理 6

\(\text{a}.\)\(\bm A\) 是可逆矩阵,则 \(\bm A^{-1}\) 也可逆而且 \((\bm A^{-1})^{-1}=\bm A\)

\(\text{b}.\)\(\bm A\)\(\bm B\) 都是 \(n\times n\) 可逆矩阵,则 \(\bm A\bm B\) 也可逆,且其逆是 \(\bm A\)\(\bm B\) 的逆矩阵按相反顺序的乘积,即

\[(\bm A\bm B)^{-1}=\bm B^{-1}\bm A^{-1} \]

\(\text{c}.\)\(\bm A\) 可逆,则 \(\bm A^T\) 也可逆,且其逆是 \(\bm A^{-1}\) 的转置,即 \((\bm A^T)^{-1}=(\bm A^{-1})^T\)

证明 \(\text{a}\),即寻找矩阵 \(\bm C\) 使

\[A^{-1}\bm C=\bm I\quad且\quad\bm C\bm A^{-1}=\bm I \]

显然 \(\bm A\) 满足这些方程,故 \(A^{-1}\) 可逆且 \(\bm A\) 是它的逆。

证明 \(\text{b}\),有

\[(\bm A\bm B)(\bm B^{-1}\bm A^{-1})=\bm A(\bm B\bm B^{-1})\bm A^{-1}=\bm A\bm I\bm A^{-1}=\bm A\bm A^{-1}=\bm I \]

类似地有 \((\bm B^{-1}\bm A^{-1})(\bm A\bm B)=\bm I\),因此 \(\bm A\bm B\) 可逆且其逆为 \(\bm B^{-1}\bm A^{-1}\)

证明 \(\text{c}\),利用定理 3d,有 \((\bm A^{-1})^T\bm A^T=(\bm A\bm A^{-1})^T=\bm I\),类似地有 \(\bm A^T(\bm A^{-1})^T=\bm I\),因此 \(\bm A^T\) 可逆且其逆为 \((\bm A^{-1})^T\)

我们推广定理 6b:

若干个 \(n\times n\) 可逆矩阵的积也是可逆的,其逆等于这些矩阵的逆按相反顺序的乘积。

在可逆矩阵与矩阵的行变换之间有一种重要的联系,它引出了计算逆矩阵的一种方法。可以看到,可逆矩阵行等价于单位矩阵,而我们可通过观察 \(\bm A\) 行化简为 \(\bm I\) 这一过程求出 \(\bm A^{-1}\)

初等矩阵

把单位矩阵进行一次初等行变换,就得到初等矩阵

\[\bm E_1=\begin{bmatrix}1&0&0\\0&1&0\\-4&0&1\end{bmatrix},\bm E_2=\begin{bmatrix}0&1&0\\1&0&0\\0&0&1\end{bmatrix},\bm E_3=\begin{bmatrix}1&0&0\\0&1&0\\0&0&5\end{bmatrix},\bm A=\begin{bmatrix}a&b&c\\d&e&f\\g&h&i\end{bmatrix} \]

计算 \(\bm E_1\bm A,\bm E_2\bm A,\bm E_3\bm A\),说明它们均可由 \(\bm A\) 进行初等行变换得到。


\[\bm E_1\bm A=\begin{bmatrix}a&b&c\\d&e&f\\g-4a&h-4b&i-4c\end{bmatrix},\bm E_2\bm A=\begin{bmatrix}d&e&f\\a&b&c\\g&h&i\end{bmatrix},\bm E_3\bm A=\begin{bmatrix}a&b&c\\d&e&f\\5g&5h&5i\end{bmatrix} \]

于是我们很容易说明题目的结论。

对于任意 \(3\times n\) 矩阵,左乘上面的 \(\bm E_1\)(在左边相乘,就是 \(\bm E_1\bm A\))也有相同的结果。特别地,\(\bm E_1\bm I=\bm E_1\),我们看到,\(\bm E_1\) 本身是把单位矩阵以同一行变换作用所得。上述例子说明了下列关于初等矩阵的一般事实:

若对 \(m\times n\) 矩阵 \(\bm A\) 进行某种初等行变换,所得矩阵可写成 \(\bm E\bm A\),其中 \(\bm E\)\(m\times m\) 矩阵,是由 \(\bm I_m\) 进行同一行变换所得。

由于行变换可逆,所以初等矩阵也可逆。若 \(\bm E\)\(\bm I\) 进行行变换所得,则有同一类型的另一行变换把 \(\bm E\) 变回 \(\bm I\)。因此有初等矩阵 \(\bm F\) 使 \(\bm F\bm E=\bm I\)。因为 \(\bm E\)\(\bm F\) 对应于互逆的变换,所以也有 \(\bm E\bm F=\bm I\)

每个初等矩阵 \(\bm E\) 是可逆的,\(\bm E\) 的逆是一个同类型的初等矩阵,它把 \(\bm E\) 变回 \(\bm I\)

\(\bm E_1=\begin{bmatrix}1&0&0\\0&1&0\\-4&0&1\end{bmatrix}\) 的逆。


为把 \(\bm E_1\) 变成 \(\bm I\),把第 \(1\) 行的 \(4\) 倍加到第 \(3\) 行,这相应于初等矩阵

\[\bm E_1^{-1}=\begin{bmatrix}1&0&0\\0&1&0\\4&0&1\end{bmatrix} \]

定理 7

\(n\times n\) 矩阵 \(\bm A\) 是可逆的,当且仅当 \(\bm A\) 行等价于 \(\bm I_n\),这时,把 \(\bm A\) 化简为 \(\bm I_n\) 的一系列初等行变换同时把 \(\bm I_n\) 变成 \(\bm A^{-1}\)

\(\bm A\) 为可逆矩阵,则对任意 \(\bm b\),方程 \(\bm A\bm x=\bm b\) 有解,\(\bm A\) 在每一行有一个主元位置。又 \(\bm A\) 为方阵,这 \(n\) 个主元位置在对角线上,那么 \(\bm A\sim\bm I_n\)

反正,若 \(\bm A\sim\bm I_n\),由于每步行化简对应于左乘一个初等矩阵,存在初等矩阵 \(\bm E_1,\bm E_2,\cdots,\bm E_p\) 使

\[\bm A\sim\bm E_1\bm A\sim\bm E_2(\bm E_1\bm A)\sim\cdots\sim\bm E_p(\bm E_{p-1}\cdots\bm E_1\bm A)=\bm I_n \]

\[\bm E_p\bm E_{p-1}\cdots\bm E_1\bm A=\bm I_n \]

\[\begin{aligned} (\bm E_p\bm E_{p-1}\cdots\bm E_1)^{-1}(\bm E_p\bm E_{p-1}\cdots\bm E_1)\bm A &= (\bm E_p\bm E_{p-1}\cdots\bm E_1)^{-1}\bm I_n \\ \bm A &= (\bm E_p\bm E_{p-1}\cdots\bm E_1)^{-1} \end{aligned} \]

可知

\[\bm A^{-1}=[(\bm E_p\bm E_{p-1}\cdots\bm E_1)^{-1}]^{-1}=\bm E_p\bm E_{p-1}\cdots\bm E_1 \]

这说明 \(\bm A^{-1}\) 可由依次以 \(\bm E_1,\bm E_2,\cdots,\bm E_p\) 作用于 \(\bm I_n\) 得到。

得证。

\(\bm A^{-1}\) 的算法

\(\bm A^{-1}\) 的算法

把增广矩阵 \(\begin{bmatrix}\bm A&\bm I\end{bmatrix}\) 进行行化简。若 \(\bm A\) 行等价于 \(\bm I\),则 \(\begin{bmatrix}\bm A&\bm I\end{bmatrix}\) 行等价于 \(\begin{bmatrix}\bm I&\bm A^{-1}\end{bmatrix}\),否则 \(\bm A\) 没有逆。

有关逆矩阵的另一个观点

\(\bm e_1,\bm e_2,\cdots,\bm e_n\) 表示 \(\bm I_n\) 的各列,则将 \(\begin{bmatrix}\bm A&\bm I\end{bmatrix}\) 行化简为 \(\begin{bmatrix}\bm I&\bm A^{-1}\end{bmatrix}\) 的过程可视为解 \(n\) 个方程组

\[\bm A\bm x=\bm e_1,\bm A\bm x=\bm e_2,\cdots,\bm A\bm x=\bm e_n \]

我们可知 \(\bm A^{-1}\) 的列正好是上述方程组的解。

数值计算

在实际应用中很少计算 \(\bm A^{-1}\),除非需要 \(\bm A^{-1}\) 的元素。计算 \(\bm A^{-1}\)\(\bm A^{-1}\bm b\) 总共需要的运算次数大约是用行化简解方程 \(\bm A\bm x=\bm b\)\(3\) 倍,且行化简可能更为精确。

2.3 可逆矩阵的特征

定理 8(可逆矩阵定理)

\(\bm A\)\(n\times n\) 矩阵,则下列命题是等价的:

\(\text{a}.\) \(\bm A\) 是可逆矩阵。

\(\text{b}.\) \(\bm A\) 行等价于 \(n\times n\) 单位矩阵。

\(\text{c}.\) \(\bm A\)\(n\) 个主元位置。

\(\text{d}.\) 方程 \(\bm A\bm x=\bm0\) 仅有平凡解。

\(\text{e}.\) \(\bm A\) 的各列线性无关。

\(\text{f}.\) 线性变换 \(\bm x\mapsto\bm A\bm x\) 是一对一的。

\(\text{g}.\)\(\mathbb{R}^n\) 中任意 \(\bm b\),方程 \(\bm A\bm x=\bm b\) 至少有一个解。

\(\text{h}.\) \(\bm A\) 的各列生成 \(\mathbb{R}^n\)

\(\text{i}.\) 线性变换 \(\bm x\mapsto\bm A\bm x\)\(\mathbb{R}^n\) 映射到 \(\mathbb{R}^n\) 上。

\(\text{j}.\) 存在 \(n\times n\) 矩阵 \(\bm C\) 使 \(\bm C\bm A=\bm I\)

\(\text{k}.\) 存在 \(n\times n\) 矩阵 \(\bm D\) 使 \(\bm A\bm D=\bm I\)

\(\text{l}.\) \(\bm A^T\) 是可逆矩阵。

若命题 \(\text{a}\) 为真蕴涵命题 \(\text{j}\) 为真,则称 \(\text{a}\) 蕴涵 \(\text{j}\),记为 \(\text{a}\Rightarrow\text{j}\)

结合所学,有 \(\text{a}\Rightarrow\text{j}\Rightarrow\text{d}\Rightarrow\text{c}\Rightarrow\text{b}\Rightarrow\text{a}\)\(\text{a}\Rightarrow\text{k}\Rightarrow\text{g}\)\(\text{g}\Leftrightarrow\text{h}\Leftrightarrow\text{i}\)\(\text{d}\Leftrightarrow\text{e}\Leftrightarrow\text{f}\)\(\text{a}\Rightarrow\text{l}\)\(\text{l}\Rightarrow\text{a}\)

得证。

易知如下事实:

\(\bm A\)\(\bm B\) 为方阵,若 \(\bm A\bm B=\bm I\),则 \(\bm A\)\(\bm B\) 都是可逆的,且 \(\bm B=\bm A^{-1}\)\(\bm A=\bm B^{-1}\)

可逆矩阵定理将所有 \(n\times n\) 矩阵分为两个不相交集合:可逆(非奇异)矩阵和不可逆(奇异)矩阵。定理中每个命题给出了 \(n\times n\) 可逆矩阵的一个性质,定理中每个命题的命题给出了 \(n\times n\) 奇异矩阵的一个性质。

可逆线性变换

线性变换 \(T:\mathbb{R}^n\rightarrow\mathbb{R}^n\) 称为可逆的,若存在函数 \(S:\mathbb{R}^n\rightarrow\mathbb{R}^n\) 使得

\[对所有 \mathbb{R}^n 中的 \bm x,S(T(\bm x))=\bm x \]

\[对所有 \mathbb{R}^n 中的 \bm x,T(S(\bm x))=\bm x \]

记为 \((1)\)\((2)\)。下列定理说明若这样的 \(S\) 存在,则它是唯一的而且必是线性变换。我们称 \(S\)\(T\) 的逆,把它写成 \(T^{-1}\)

定理 9

\(T:\mathbb{R}^n\rightarrow\mathbb{R}^n\) 为线性变换,\(\bm A\)\(T\) 的标准矩阵。则 \(T\) 可逆当且仅当 \(\bm A\) 是可逆矩阵。这时由 \(S(\bm x)=\bm A^{-1}\bm x\) 定义的线性变换 \(S\) 是满足 \((1)\) 式和 \((2)\) 式的唯一函数。

\(T\) 是可逆的,则 \((2)\) 式说明 \(T\) 是从 \(\mathbb{R}^n\) 映射到 \(\mathbb{R}^n\) 上的映射,因若 \(\bm b\in\mathbb{R}^n\)\(\bm x=S(\bm b)\),则 \(T(\bm x)=T(S(\bm b))=\bm b\),所以每个 \(\bm b\) 属于 \(T\) 的值域。由可逆矩阵定理命题 \((\text{i})\)\(\bm A\) 为可逆的。

反之,若 \(\bm A\) 是可逆的,令 \(S(\bm x)=\bm A^{-1}\bm x\),则 \(S\) 是线性变换且满足 \((1)\) 式和 \((2)\) 式,于是 \(T\) 是可逆的。

得证。

2.4 分块矩阵

对于矩阵 \(\bm A=\begin{bmatrix}3&0&-1&5&-9&-2\\-5&2&4&0&-3&1\\-8&-6&3&1&7&-4\end{bmatrix}\),其可以写成 \(2\times 3\) 分块矩阵

\[\bm A=\begin{bmatrix}\bm A_{11}&\bm A_{12}&\bm A_{13}\\\bm A_{21}&\bm A_{22}&\bm A_{23}\end{bmatrix} \]

它的元素是分块(或子矩阵

\[\begin{aligned}&\bm A_{11}=\begin{bmatrix}3&0&-1\\-5&2&4\end{bmatrix}\quad\bm A_{12}=\begin{bmatrix}5&9\\0&-3\end{bmatrix}\quad\bm A_{13}=\begin{bmatrix}-2\\1\end{bmatrix} \\& \bm A_{21}=\begin{bmatrix}-8&-6&3\end{bmatrix}\quad\bm A_{22}=\begin{bmatrix}1&7\end{bmatrix}\quad\bm A_{23}=\begin{bmatrix}-4\end{bmatrix} \end{aligned} \]

加法与标量乘法

这和一般矩阵是相同的。不过加法成立需要矩阵 \(\bm A\)\(\bm B\) 有相同的维数且以同样方式分块。

分块矩阵的乘法

分块矩阵可用通常的行列法则进行乘法运算,即我们将分块视为数运算。对于乘积 \(\bm A\bm B\),只要 \(\bm A\) 的列的分法与 \(\bm B\) 的行的分法一致。

\(3\times 5\) 矩阵 \(\bm A\) 的列被分为 \(3\) 列一组和 \(2\) 列一组;\(5\times 2\) 矩阵 \(\bm B\) 的行被分为 \(3\) 行一组和 \(2\) 行一组,形如

\[\bm A=\begin{bmatrix}\bm A_{11}&\bm A_{12}\\\bm A_{21}&\bm A_{22}\end{bmatrix}\quad\bm B=\begin{bmatrix}\bm B_1\\\bm B_2\end{bmatrix} \]

那么

\[\bm A\bm B=\begin{bmatrix}\bm A_{11}&\bm A_{12}\\\bm A_{21}&\bm A_{22}\end{bmatrix}\begin{bmatrix}\bm B_1\\\bm B_2\end{bmatrix}=\begin{bmatrix}\bm A_{11}\bm B_1+\bm A_{12}\bm B_2\\\bm A_{21}\bm B_{1}+\bm A_{22}\bm B_2\end{bmatrix} \]

注意小乘积中必须将 \(\bm A\) 的子矩阵写在前面。

我们在前面已经有四种关于矩阵乘积的观点:\((1)\) 使用 \(\bm A\) 的列来给出 \(\bm A\bm x\) 的定义;\((2)\) \(\bm A\bm B\) 的列的定义;\((3)\) 计算 \(\bm A\bm B\) 的行列法则;\((4)\) \(\bm A\) 的行与矩阵 \(\bm B\) 的乘积作为 \(\bm A\bm B\) 的行。下列定理应用分块思想给出第 \(5\) 种观点。

这里提到了内积和外积的概念。

我们将 \(\mathbb{R}^n\) 中向量视为 \(n\times 1\) 矩阵,对 \(\bm u,\bm v\in\mathbb{R}^n\),矩阵乘积 \(\bm u^{T}\bm v\)\(1\times 1\) 矩阵,称为 \(\bm u\)\(\bm v\)数量积内积,它通常写作实数而省略括号。矩阵乘积 \(\bm u\bm v^T\)\(n\times n\) 矩阵,称为 \(\bm u\)\(\bm v\)外积

\(\bm A=\begin{bmatrix}-3&1&2\\1&-4&5\end{bmatrix}\)\(\bm B=\begin{bmatrix}a&b\\c&d\\e&f\end{bmatrix}\),验证

\[\bm A\bm B=\mathrm{col}_1(\bm A)\mathrm{row}_1(\bm B)+\mathrm{col}_2(\bm A)\mathrm{row}_2(\bm B)+\mathrm{col}_3(\bm A)\mathrm{row}_3(\bm B) \]


上面的每一项都是外积,有

\[\mathrm{col}_1(\bm A)\mathrm{row}_1(\bm B)=\begin{bmatrix}-3\\1\end{bmatrix}\begin{bmatrix}a&b\end{bmatrix}=\begin{bmatrix}-3a&-3b\\a&b\end{bmatrix} \]

\[\mathrm{col}_2(\bm A)\mathrm{row}_2(\bm B)=\begin{bmatrix}1\\-4\end{bmatrix}\begin{bmatrix}c&d\end{bmatrix}=\begin{bmatrix}c&d\\-4c&-4d\end{bmatrix} \]

\[\mathrm{col}_3(\bm A)\mathrm{row}_3(\bm B)=\begin{bmatrix}2\\5\end{bmatrix}\begin{bmatrix}e&f\end{bmatrix}=\begin{bmatrix}2e&2f\\5e&5f\end{bmatrix} \]

于是

\[\sum_{k=1}^{3}\mathrm{col}_k(\bm A)\mathrm{row}_k(\bm B)=\begin{bmatrix}-3a+c+2e&-3b+d+2f\\a-4c+5e&b-4d+5f\end{bmatrix} \]

这个矩阵恰好就是 \(\bm A\bm B\)\(\bm A\bm B\)\((i,j)\) 元素是三个外积的 \((i,j)\) 元素之和。

定理 10(\(\bm A\bm B\) 的列行展开)

\(\bm A\)\(m\times n\) 矩阵,\(\bm B\)\(n\times p\) 矩阵,则

\[\begin{aligned} \bm A\bm B &= \begin{bmatrix}\mathrm{col}_1(\bm A)&\mathrm{col}_2(\bm A)&\cdots&\mathrm{col}_n(\bm A)\end{bmatrix}\begin{bmatrix}\mathrm{row}_1(\bm B)\\\mathrm{row}_2(\bm B)\\\vdots\\\mathrm{row}_n(\bm B)\end{bmatrix} \\ &=\mathrm{col}_1(\bm A)\mathrm{row}_1(\bm B)+\mathrm{col}_2(\bm A)\mathrm{row}_2(\bm B)+\cdots+\mathrm{col}_n(\bm A)\mathrm{row}_n(\bm B) \end{aligned} \]

分块矩阵的逆

形如 \(\bm A=\begin{bmatrix}\bm A_{11}&\bm A_{12}\\\bm0&\bm A_{22}\end{bmatrix}\) 的矩阵称为分块上三角矩阵。设 \(\bm A_{11}\)\(p\times p\) 矩阵,\(\bm A_{22}\)\(q\times q\) 矩阵,且 \(\bm A\) 可逆,求 \(\bm A^{-1}\)


\(\bm B\) 表示 \(\bm A^{-1}\) 且把 \(\bm B\) 分块,使得

\[\begin{bmatrix}\bm A_{11}&\bm A_{12}\\\bm0&\bm A_{22}\end{bmatrix}\begin{bmatrix}\bm B_{11}&\bm B_{12}\\\bm B_{21}&\bm B_{22}\end{bmatrix}=\begin{bmatrix}\bm I_p&0\\\bm0&\bm I_q\end{bmatrix} \]

于是得到四个方程

\[\begin{aligned}\bm A_{11}\bm B_{11}+\bm A_{12}\bm B_{21} &= \bm I_p \\ \bm A_{11}\bm B_{12}+\bm A_{12}\bm B_{22} &= \bm0 \\ \bm A_{22}\bm B_{21} &= \bm0 \\ \bm A_{22}\bm B_{22} &= \bm I_q\end{aligned} \]

我们可知 \(\bm A_{22}\) 可逆且 \(\bm B_{22}=\bm A_{22}^{-1}\),由第三个方程

\[\bm B_{21}=\bm A_{22}^{-1}\bm0=bm0 \]

于是第一个方程为

\[\bm A_{11}\bm B_{11}+\bm0=\bm I_p \]

可知 \(\bm A_{11}\) 可逆且 \(\bm B_{11}=\bm A_{11}^{-1}\),由第二个方程

\[\bm A_{11}\bm B_{12}=-\bm A_{12}\bm B_{22}=-\bm A_{12}\bm A_{22}^{-1} \]

\[\bm B_{12}=-\bm A_{11}^{-1}\bm A_{12}\bm A_{22}^{-1} \]

最终得到

\[\bm A^{-1}=\begin{bmatrix}\bm A_{11}&\bm A_{12}\\\bm0&\bm A_{22}\end{bmatrix}^{-1}=\begin{bmatrix}\bm A_{11}^{-1}&-\bm A_{11}^{-1}\bm A_{12}\bm A_{22}^{-1}\\\bm0&\bm A_{22}^{-1}\end{bmatrix} \]

分块对角矩阵是一个分块矩阵,除了主对角线上各分块外,其余全是零分块。可以用类似上述方法证明,这样的一个矩阵是可逆的当且仅当对角线上各分块都是可逆的。

数值计算

\(1.\) 当矩阵太大时,不适于储存在高速计算机内存中,分块矩阵允许计算机一次处理两到三块子矩阵。

\(2.\) 对于某些高速计算机,特别是具有向量传输技术的计算机,当把矩阵分块后再进行矩阵运算更有效。

2.5 矩阵分解

矩阵 \(\bm A\)分解是把 \(\bm A\) 表示为两个或更多个矩阵的乘积。矩阵乘法是数据的综合(把两个或更多个线性变换的作用结合成一个矩阵),矩阵分解是数据的分解。在计算机科学的语言中,将 \(\bm A\) 表示为矩阵的乘积是对 \(\bm A\) 中数据的预处理,把这些数据分成两个或多个部分可能更有用或更便于计算。

\(\mathrm{LU}\) 分解

\(\bm A\)\(m\times n\) 矩阵,它可以行化简为阶梯形而不必行对换(此后我们处理一般情形),则 \(\bm A\) 可写成形式 \(\bm A=\bm L\bm U\)\(\bm L\)\(m\times m\) 下三角形矩阵,主对角线元素全是 \(1\)\(\bm U\)\(\bm A\) 的一个 \(m\times n\) 阶梯形矩阵,例如

\[\bm A=\begin{bmatrix}1&0&0&0\\\ast&1&0&0\\\ast&\ast&1&0\\\ast&\ast&\ast&1\end{bmatrix}\begin{bmatrix}\blacksquare&\ast&\ast&\ast&\ast\\0&\blacksquare&\ast&\ast&\ast\\0&0&0&\blacksquare&\ast\\0&0&0&0&0\end{bmatrix} \]

这样一个分解称为 \(\mathrm{LU}\) 分解,矩阵 \(\bm L\) 是可逆的,称为单位下三角形矩阵。

\(\bm A=\bm L\bm U\),方程 \(\bm A\bm x=\bm b\) 可写成 \(\bm L(\bm U\bm x)=\bm b\),令 \(\bm y=\bm U\bm x\),可通过如下方程解得 \(\bm x\)

\[\begin{cases}\bm L\bm y=\bm b \\ \bm U\bm x=\bm y\end{cases} \]

\(\bm L,\bm U\) 都是三角矩阵,我们可以较方便地求解。

\(\mathrm{LU}\) 分解算法

\(\bm A\) 可以化为阶梯形 \(\bm U\),化简过程中仅用行倍加变换,即把一行的倍数加于它下面的另一行。存在单位下三角初等矩阵 \(\bm E_1,\bm E_2,\cdots,\bm E_p\) 使

\[\bm E_p\bm E_{p-1}\cdots\bm E_1\bm A=\bm U \]

\[\bm A=(\bm E_p\bm E_{p-1}\cdots\bm E_1)^{-1}\bm U=\bm L\bm U \]

\[\bm L=(\bm E_p\bm E_{p-1}\cdots\bm E_1)^{-1} \]

可以证明单位下三角形矩阵的乘积和逆也是单位下三角形矩阵,于是 \(\bm L\) 为简化阶梯形。

注意有

\[\bm E_p\bm E_{p-1}\cdots\bm E_1\bm L=(\bm E_p\bm E_{p-1}\cdots\bm E_1)(\bm E_p\bm E_{p-1}\cdots\bm E_1)^{-1}=\bm I \]

这是构造 \(\bm L\) 的关键。

\(\mathrm{LU}\) 分解的算法

\(1.\) 如果可能的话,用一系列的行倍加变换把 \(\bm A\) 化为阶梯形 \(\bm U\)

\(2.\) \(\bm L\) 的元素满足用相同的一系列行变换把 \(\bm L\) 变为 \(\bm I\)

当第 \(1\) 步可能时,上述讨论指出 \(\bm L\bm U\) 分解存在。第 \(2\) 步,对上述 \(\bm E_1,\bm E_2,\cdots,\bm E_p\)\(\bm L\) 满足

\[(\bm E_p\bm E_{p-1}\cdots\bm E_1)\bm L=\bm I \]

根据可逆矩阵定理,\(\bm L\) 是可逆的,\((\bm E_p\bm E_{p-1}\cdots\bm E_1)=\bm L^{-1}\)

求下列矩阵的 \(\mathrm{LU}\) 分解:

\[\bm A=\begin{bmatrix}2&4&-1&5&-2\\-4&-5&3&-8&1\\2&-5&-4&1&8\\-6&0&7&-3&1\end{bmatrix} \]


\(\bm A\)\(4\) 行,\(\bm L\)\(4\times 4\) 矩阵,\(\bm L\) 的第一列是 \(\bm A\) 的第一列除以它的第一行主元元素:

\[\bm L=\begin{bmatrix}1&0&0&0\\-2&1&0&0\\1&&1&0\\-3&&&1\end{bmatrix} \]

比较两者的第一列。\(\bm A\) 的第一列的后三个元素变成 \(0\) 的行变换同时也将 \(\bm L\) 的第一列的后三个元素变成 \(0\),而同样的道理对 \(\bm L\) 的其他各列也成立,如下所示(注意 \(\ast\) 处):

\[\bm A=\begin{bmatrix}2^\ast&4&-1&5&-2\\-4^\ast&-5&3&-8&1\\2^\ast&-5&-4&1&8\\-6^\ast&0&7&-3&1\end{bmatrix} \sim \begin{bmatrix}2&4&-1&5&-2\\0&3^\ast&1&2&-3\\0&-9^\ast&-3&-4&10\\0&12^\ast&4&12&-5\end{bmatrix} \]

\[\sim \begin{bmatrix}2&4&-1&5&-2\\0&3&1&2&-3\\0&0&0&2^\ast&1\\0&0&0&4^\ast&7\end{bmatrix} \sim \begin{bmatrix}2&4&-1&5&-2\\0&3&1&2&-3\\0&0&0&2&1\\0&0&0&0&5^\ast\end{bmatrix}=\bm U \]

标出元素确定了将 \(\bm A\) 化为 \(\bm U\) 的行化简,在每个主元列,把标出的元素除以主元后将结果放入 \(\bm L\),可得

\[\bm L=\begin{bmatrix}1&0&0&0\\-2&1&0&0\\1&-3&1&0\\-3&4&2&1\end{bmatrix} \]

易验证 \(\bm L\bm U=\bm A\)

在实际工作中行对换几乎总是必要的,因为部分主元法可以用来提高精确度(其选择一列中可以作为主元的元素中绝对值最大的一个作为主元)。为处理行对换,上述 \(\mathrm{LU}\) 分解可以稍作改变以产生一个置换下三角形矩阵 \(\bm L\),就是说经过行的置换后它成为(单位)下三角形矩阵。所得的置换 \(\mathrm{LU}\) 分解可通过与前面一样的途径解方程 \(\bm A\bm x=\bm b\),只要在把 \(\begin{bmatrix}\bm L&\bm b\end{bmatrix}\) 化简为 \(\begin{bmatrix}\bm I&\bm y\end{bmatrix}\) 时按照 \(\bm L\) 中主元的顺序从左到右进行,并从第一列的主元开始。

数值计算

下列运算次数的计算适用于 \(n\times n\) 稠密矩阵 \(\bm A\)(大部分元素非零),\(n\) 相当大(如 \(n\ge 30\))。

\(1.\) 计算 \(\bm A\)\(\mathrm{LU}\) 分解大约需要 \(\dfrac{2}{3}n^3\) 次浮算(大约与行化简 \(\begin{bmatrix}\bm A&\bm b\end{bmatrix}\) 的次数相同),而求 \(\bm A^{-1}\) 大约需要 \(2n^3\) 次浮算。

\(2.\)\(\bm L\bm y=\bm b\)\(\bm U\bm x=\bm y\) 大约需要 \(2n^2\) 次浮算,因任意 \(n\times n\) 三角方程组可以用大约 \(n^2\) 次浮算解出。

\(3.\)\(\bm b\) 乘以 \(\bm A^{-1}\) 也需要 \(2n^2\) 次浮算,但结果可能不如由 \(\bm L\)\(\bm U\) 得出的精确(由于计算 \(\bm A^{-1}\)\(\bm A^{-1}\bm b\) 的舍入误差)。

\(4.\)\(\bm A\) 是稀疏矩阵(大部分元素为 \(0\)),则 \(\bm L\)\(\bm U\) 可能也是稀疏的,然而 \(\bm A^{-1}\) 很可能是稠密的,这时用 \(\mathrm{LU}\) 分解来解方程 \(\bm A\bm x=\bm b\) 很可能比用 \(\bm A^{-1}\) 快很多。

2.6 列昂惕夫投入-产出模型

在以下经济模型中,设 \(\bm x\)\(\mathbb{R}^n\)产出向量\(\bm d\)最终需求向量(或最终需求账单),\(\bm C\)消耗矩阵\(\bm C_{ij}\) 表示部门 \(j\) 每单位产出中对部门 \(i\) 消耗的投入,有

\[\{中间需求\}=\sum_{i=1}^{n}x_1\bm c_i=\bm C\bm x \]

列昂惕夫投入-产出模型或生产方程

\[\bm x=\bm C\bm x+\bm d \]

其中 \(\bm x\) 为总产出,\(\bm C\bm x\) 为中间需求,\(\bm d\) 为最终需求。

可以将该方程写为 \((\bm I-\bm C)\bm x=\bm d\)

下列定理中用列的和表示矩阵中某一列元素的和。

定理 11

\(\bm C\) 为某一经济体系的消耗矩阵,\(\bm d\) 为最终需求。若 \(\bm C\)\(\bm d\) 的元素非负,\(\bm C\) 的每一列的和小于 \(1\),则 \((\bm I-\bm C)^{-1}\) 存在,产出向量

\[\bm x=(\bm I-\bm C)^{-1}\bm d \]

有非负元素,且是下列方程的唯一解:

\[\bm x=\bm C\bm x+\bm d \]

\((\bm I-\bm C)^{-1}\) 的公式

假设有由 \(\bm d\) 表示的需求和产出水平为 \(\bm x=\bm d\) 的计划,恰好满足最终需求,这创造出对投入的中间需求 \(\bm C\bm d\)。为满足 \(\bm C\bm d\) 需要额外投入 \(\bm C^2\bm dd,\bm C^3\bm d,\cdots\),在某一时刻停止。于是

\[\bm x=\bm d+\bm C\bm d+\bm C^2\bm d+\bm C^3\bm d+\cdots=(\bm I+\bm C+\bm C^2+\bm C^3+\cdots)\bm d \]

为使上式有意义,使用代数恒等式

\[(\bm I-\bm C)(\bm I+\bm C+\bm C^2+\cdots+\bm C^m)=\bm I-\bm C^{m+1} \]

可以证明,若 \(\bm C\) 的列的和都严格小于 \(1\),则 \(\bm I-\bm C\) 是可逆的,当 \(m\) 趋于无穷时 \(\bm C^m\) 趋于 \(\bm0\),而 \(\bm I-\bm C^{m+1}\rightarrow\bm I\)。那么当 \(\bm C\) 的和小于 \(1\) 时,

\[(\bm I-\bm C)^{-1}\approx\bm I+\bm C+\bm C^2+\cdots+\bm C^m \]

实际上消耗矩阵的幂迅速趋于 \(\bm0\)。类似地,对任意 \(\bm d\),向量 \(\bm C^m\bm d\) 迅速趋于零向量。

于是上面已经给出了计算 \((\bm I-\bm C)^{-1}\) 和求解方程 \((\bm I-\bm C)\bm x=\bm d\) 方法。若 \(\bm C,\bm d\) 中元素均非负,可知 \(\bm x\) 中的元素也非负。

\((\bm I-\bm C)^{-1}\) 中元素的经济重要性

事实上,\((\bm I-\bm C)^{-1}\)\(j\) 列的元素表示当第 \(j\) 个部门的最终需求增加 \(1\) 单位时,各部门需要增加产出的数量。

2.7 在计算机图形学中的应用

我们在 1.9 节中已经知道,\(\mathbb{R}^2\) 中的几何线性变换可以用对称、收缩与拉伸、剪切和投影复合而成,这里略过。

齐次坐标

\(\mathbb{R}^2\) 中每个点 \((x,y)\) 可以对应于 \(\mathbb{R}^3\) 中的点 \((x,y,1)\),它们位于 \(xy\) 平面上方 \(1\) 单位的平面上,称 \((x,y)\)齐次坐标 \((x,y,1)\)

形如 \((x,y)\mapsto(x+h,y+k)\) 的平移可以用齐次坐标写成 \((x,y,1)\mapsto(x+h,y+k,1)\),用矩阵乘法实现:

\[\begin{bmatrix}1&0&h\\0&1&k\\0&0&1\end{bmatrix}\begin{bmatrix}x\\y\\1\end{bmatrix}=\begin{bmatrix}x+h\\y+k\\1\end{bmatrix} \]

\(\mathbb{R}^2\) 中的任意线性变换可以通过齐次坐标乘以分块矩阵 \(\begin{bmatrix}\bm A&\bm0\\\bm0&1\end{bmatrix}\) 实现,其中 \(\bm A\)\(2\times 2\) 矩阵,例如

  • 绕原点顺时针旋转角度 \(\varphi\)\(\begin{bmatrix}\cos\varphi&-\sin\varphi&0\\\sin\varphi&\cos\varphi&0\\0&0&1\end{bmatrix}\)

  • 关于 \(y=x\) 的对称:\(\begin{bmatrix}0&1&0\\1&0&0\\0&0&1\end{bmatrix}\)

  • \(x\) 乘以 \(s\)\(y\) 乘以 \(t\)\(\begin{bmatrix}s&0&0\\0&t&0\\0&0&1\end{bmatrix}\)

复合变换

图形在计算机屏幕上的移动通常需要两个或多个基本变换。这些的变换的复合相应于在使用齐次坐标时进行矩阵相乘。

三维计算机图形学

应用于分子建模。药物设计的进展依赖于计算机图形学构造有真实感的分子和它们的交互作用的仿真的能力。现在的分子建模的研究集中于虚拟现实

齐次三维坐标

我们称 \((x,y,z,1)\)\(\mathbb{R}^3\) 中点 \((x,y,z)\) 的齐次坐标。一般地,若 \(H\ne 0\),则 \((X,Y,Z,H)\)\((x,y,z)\)齐次坐标,且

\[x=\frac{X}{H},y=\frac{Y}{H},z=\frac{Z}{H} \]

\((x,y,z,1)\) 的每一个非零的标量乘法得到一组 \((x,y,z)\) 的齐次坐标。

同样可以通过研究 \(\bm e_1,\bm e_2\,\bm e_3\) 在线性变换作用下的坐标得到 \(4\times 4\) 的线性变换矩阵。

透视投影

三维物体在二维计算机屏幕上的表示方法是把它投影在一个可视平面上。简单起见,设 \(xy\) 平面表示计算机屏幕,假设某一观察者的眼睛向正 \(z\) 轴看去,眼睛位置为 \((0,0,d)\)透视投影把每个点 \((x,y,z)\) 映射为 \((x',y',0)\),使这两点与观察者的眼睛位置(称为投影中心)在一条直线上。作图,由相似三角形有

\[\frac{x'}{d}=\frac{x}{d-z}\Rightarrow x'=\frac{dx}{d-z}=\frac{x}{1-z/d} \]

类似地,

\[y'=\frac{y}{1-z/d} \]

使用齐次坐标,用矩阵 \(\bm P\) 表示透视投影,我们想将 \((x,y,z,1)\) 映射为

\[\big(\frac{x}{1-z/d},\frac{y}{1-z/d},0,1\big) \]

可用 \(1-z/d\) 把这个坐标缩放,也可用 \((x,y,0,1-z/d)\) 作为像的齐次坐标,可求出

\[\bm P\begin{bmatrix}x\\y\\z\\1\end{bmatrix}=\begin{bmatrix}1&0&0&0\\0&1&0&0\\0&0&0&0\\0&0&-1/d&1\end{bmatrix}\begin{bmatrix}x\\y\\z\\1\end{bmatrix}=\begin{bmatrix}x\\y\\0\\1-z/d\end{bmatrix} \]

数值计算

图形化三维物体的连续移动需要计算大量的 \(4\times 4\) 矩阵。特别地,当渲染曲面使其光滑时,可使它更有实体感,并有适当的光线。高档图形工作站有 \(4\times 4\) 矩阵运算及并将图形嵌入芯片和电路中,这样的工作站可以每秒做数十亿次矩阵乘法以实现三维游戏程序中有真实感的颜色变化。

2.8 \(\mathbb{R}^n\) 的子空间

定义 \(\;\) \(\mathbb{R}^n\) 中的一个子空间\(\mathbb{R}^n\) 中的集合 \(H\),具有以下三个性质:

\(\text{a}.\) 零向量属于 \(H\)

\(\text{b}.\)\(H\) 中任意的向量 \(\bm u\)\(\bm v\),向量 \(\bm u+\bm v\) 属于 \(H\)

\(\text{c}.\)\(H\) 中任意向量 \(\bm u\) 和数 \(c\),向量 \(c\bm u\) 属于 \(H\)

换句话说,子空间对加法和标量乘法运算是封闭的

\(\bm v_1,\bm v_2,\cdots,\bm v_p\) 属于 \(\mathbb{R}^n\),则 \(\bm v_1,\bm v_2,\bm v_p\) 的所有线性组合是 \(\mathbb{R}^n\) 的子空间,称 \(\mathrm{Span}\{\bm v_1,\bm v_2,\cdots,\bm v_p\}\) 为由 \(\bm v_1,\bm v_2,\cdots,\bm v_p\) 生成(或张成)的子空间

\(\mathbb{R}^n\) 是它本身的子空间。仅含零向量的集合称为零子空间

定义 \(\;\) 矩阵 \(\bm A\)列空间\(\bm A\) 的各列的线性组合的集合,记作 \(\mathrm{Col}\bm A\)

\(\bm A=\begin{bmatrix}\bm a_1&\bm a_2&\cdots&\bm a_n\end{bmatrix}\),各列属于 \(\mathbb{R}^m\),则 \(\mathrm{Col}\bm A\)\(\mathrm{Span}\{\bm a_1,\bm a_2,\cdots,\bm a_n\}\) 相同。

向量 \(\bm b\) 属于 \(\bm A\) 的列空间,这说明方程 \(\bm A\bm x=\bm b\) 相容。\(\bm A\) 的列空间是所有使方程组有解的向量 \(\bm b\) 集合。

\(m\times n\) 矩阵的列空间是 \(\mathbb{R}^m\) 的子空间。仅当 \(\bm A\) 的列生成 \(\mathbb{R}^m\) 时,\(\mathrm{Col}\bm A\) 等于 \(\mathbb{R}^m\)。否则 \(\mathrm{Col}\bm A\) 仅是 \(\mathbb{R}^m\) 的一部分。

定义 矩阵 \(\bm A\)零空间是齐次方程 \(\bm A\bm x=\bm0\) 的所有解的集合,记为 \(\mathrm{Nul}\bm A\)

\(\bm A\)\(n\) 列时,\(\bm A\bm x=\bm0\) 的解属于 \(\mathbb{R}^n\)\(\bm A\) 的零空间是 \(\mathbb{R}^n\) 的子集。

定理 12

\(m\times n\) 矩阵 \(\bm A\) 的零空间时 \(\mathbb{R}^n\) 的子空间。等价地,\(n\) 个未知数的 \(m\) 个齐次线性方程的方程组 \(\bm A\bm x=\bm0\) 的所有解的集合是 \(\mathbb{R}^n\) 的子空间。

首先零向量属于 \(\mathrm{Nul}\bm A\)

\(\mathrm{Nul}\bm A\) 中两向量 \(\bm u,\bm v\) 和数 \(c\),则 \(\bm u+\bm v\)\(c\bm u\) 属于 \(\mathrm{Nul}\bm A\)。容易得证。

检验 \(\bm v\) 是否属于 \(\mathrm{Nul}\bm A\) 只需检验 \(\bm A\bm v=\bm0\) 是否成立。因 \(\mathrm{Nul}\bm A\) 是用其中每个向量必须满足的一个条件来描述的,所以说零空间时隐式定义的。而列空间是显式定义的,因 \(\mathrm{Col}\bm A\) 中的向量可由 \(\bm A\) 的各列利用线性组合构造出来。为建立 \(\mathrm{Nul}\bm A\) 的显示描述,只需将解写成参数向量形式。

子空间的基

定义 \(\;\) \(\mathbb{R}^n\) 中子空间 \(H\) 的一组\(H\) 中一个线性无关集,它生成 \(H\)

\(\{\bm e_1,\bm e_2,\cdots,\bm e_n\}\) 称为 \(\mathbb{R}^n\)标准基

下例说明,求出方程 \(\bm A\bm x=\bm0\) 的解集的向量参数形式实际上就是确定 \(\mathrm{Nul}\bm A\) 的基。

求出 \(\mathrm{Nul}\bm A\) 的基,其中

\[\bm A=\begin{bmatrix}-3&6&-1&1&-7\\1&-2&2&3&-1\\2&-4&5&8&-4\end{bmatrix} \]


将方程 \(\bm A\bm x=\bm0\) 的解写成参数向量形式:

\[\begin{bmatrix}\bm A&\bm0\end{bmatrix}\sim\begin{bmatrix}1&-2&0&-1&3&0\\0&0&1&2&-2&0\\0&0&0&0&0&0\end{bmatrix}\Rightarrow\begin{matrix}x_1&-2x_2&&-x_4&+3x_5&=0\\&&x_3&+2x_4&-2x_5&=0\\&&&&0&=0\end{matrix} \]

通解为 \(x_1=2x_3+x_4-3x_5,x_3=-2x_4+2x_5\)\(x_2,x_4,x_5\) 为自由变量,则

\[\begin{bmatrix}x_1\\x_2\\x_3\\x_4\\x_5\end{bmatrix}=\begin{bmatrix}2x_2+x_4-3x_5\\x_2\\-2x_4+2x_5\\x_4\\x_5\end{bmatrix}=x_2\begin{bmatrix}2\\1\\0\\0\\0\end{bmatrix}+x_4\begin{bmatrix}1\\0\\-2\\1\\0\end{bmatrix}+x_5\begin{bmatrix}-3\\0\\2\\0\\1\end{bmatrix} \]

将其表示为 \(\bm x=x_2\bm u+x_4\bm v+x_5\bm w\)

可知 \(\{\bm u,\bm v,\bm w\}\) 生成 \(\mathrm{Nul}\bm A\)。容易得出,\(\bm u,\bm v,\bm w\) 的构造保证了它们线性无关(因为 \(x_2\) 不能被 \(x_4,x_5\) 表示出),因此 \(\{\bm u,\bm v,\bm w\}\)\(\mathrm{Nul}\bm A\) 的一组基。

\(\mathrm{Col}\bm B\) 的基,其中

\[\bm B=\begin{bmatrix}\bm b_1&\bm b_2&\bm b_3&\bm b_4&\bm b_5\end{bmatrix}=\begin{bmatrix}1&0&-3&5&0\\0&1&2&-1&0\\0&0&0&0&1\\0&0&0&0&0\end{bmatrix} \]


注意到 \(\bm b_3=-3\bm b_1+2\bm b_2\)\(\bm b_4=5\bm b_1-\bm b_2\)。这意味着对于任意 \(\bm v\in\mathrm{Col}\bm B\),有

\[\begin{aligned}\bm v&=c_1\bm b_1+c_2\bm b_2+c_3\bm b_3+c_4\bm b_4+c_5\bm b_5\\&=c_1\bm b_1+c_2\bm b_2+c_3(-3\bm b_1+2\bm b_2)+c_4(5\bm b_1-\bm b_2)+c_5\bm b_5\end{aligned} \]

它是 \(\bm b_1,\bm b_2,\bm b_5\) 的线性组合,于是 \(\{\bm b_1,\bm b_2,\bm b_5\}\) 生成 \(\mathrm{Col}\bm B\),又 \(\bm b_1,\bm b_2,\bm b_5\) 线性无关,\(\bm B\) 的主元列构成 \(\mathrm{Col}\bm B\) 的基。

\(\bm B\) 是简化阶梯形。对于一般矩阵 \(\bm A\),回顾 \(\bm A\) 的各列之间的线性相关关系可表示为形式 \(\bm A\bm x=\bm0\)。当 \(\bm A\) 行化简为简化阶梯形 \(\bm B\) 时,方程 \(\bm A\bm x=\bm0\)\(\bm B\bm x=\bm0\) 有相同的解集,即 \(\bm A\) 的列与 \(\bm B\) 的列有相同的线性相关关系

此时 \(\bm A\) 类似 \(\bm B\),满足 \(\bm a_3=-3\bm a_1+2\bm a_2\)\(\bm a_4=5\bm a_1-\bm a_2\),且 \(\{\bm a_1,\bm a_2,\bm a_5\}\) 线性无关,可知 \(\{\bm a_1,\bm a_2,\bm a_5\}\)\(\mathrm{Col}\bm A\) 的一组基。

定理 13

矩阵 \(\bm A\) 的主元列构成 \(\bm A\) 的列空间的基。

注意阶梯形 \(\bm B\) 的列通常并不在 \(\bm A\) 的列空间内,因为行变换只能保证行向量的线性相关性不变,而列向量不行。

\(n\times n\) 矩阵 \(\bm A\) 可逆,\(\mathrm{Nul}\bm A\)\(\mathrm{Col}\bm A\) 会如何?


根据可逆矩阵定理,\(\bm A\) 的各列生成 \(\mathbb{R}^n\),故 \(\mathrm{Col}\bm A=\mathbb{R}^n\);同时方程 \(\bm A\bm x=\bm0\) 只有平凡解,则 \(\mathrm{Nul}\bm A=\{\bm0\}\)

2.9 维数与秩

坐标系

选择子空间 \(H\) 的一个基代替一个纯粹生成集的主要原因是 \(H\) 中每个向量可以被表示为基向量的线性组合的唯一方式。这是显然的。

定义 \(\;\) 假设 \(\mathcal{B}=\{\bm b_1,\bm b_2,\cdots,\bm b_p\}\) 是子空间 \(H\) 的一组基。对 \(H\) 中每一个向量 \(\bm x\)相对于基 \(\mathcal{B}\) 的坐标是使 \(\bm x=c_1\bm b_1+c_2\bm b_2+\cdots+c_p\bm b_p\) 成立的权 \(c_1,c_2,\cdots,c_p\),且 \(\mathrm{R}^p\) 中的向量

\[[\bm x]_\mathcal{B}=\begin{bmatrix}c_1\\c_2\\\vdots\\c_p\end{bmatrix} \]

称为 \(\bm x\)(相对于 \(\mathcal{B}\))的坐标向量,或 \(\bm x\)\(\mathcal{B}-\) 坐标向量。(\([\bm x]_\mathcal{B}\) 的元素依赖于 \(\mathcal{B}\) 中向量的次序)

\(\mathcal{B}=\{\bm v_1,\bm v_2\}\)\(\bm v_1,\bm v_2\in\mathbb{R}^3\),则 \(\mathcal{B}\) 确定 \(\mathbb{R}^3\) 中平面 \(H\) 上的一个“坐标系”。映射 \(\bm x\mapsto[\bm x]_\mathcal{B}\)\(H\)\(\mathbb{R}^2\) 之间保持线性组合关系的一一映射。我们称这种映射是同构的,且 \(H\)\(\mathbb{R}^2\) 同构

一般地,如果 \(\mathcal{B}=\{\bm b_1,\bm b_2,\cdots,\bm b_p\}\)\(H\) 的基,则映射 \(\bm x\mapsto[\bm x]_\mathcal{B}\) 是使 \(H\)\(\mathbb{R}^p\) 的形态一样的一一映射(尽管 \(H\) 中的向量可能有多于 \(p\) 个元素)。

子空间的维数

可以证明,若子空间 \(H\) 有一组基包含 \(p\) 个向量,则 \(H\) 的每个基都正好包含 \(p\) 个向量。

定义 \(\;\) 非零子空间 \(H\)维数(用 \(\dim H\) 表示)是 \(H\) 的任意一个基的向量个数。零子空间 \(\{\bm0\}\) 的维数定义为零。(因为零向量本身构成一个线性相关集,零子空间无基)

定义 \(\;\) 矩阵 \(A\)(记为 \(\mathrm{rank}\bm A\)) 是 \(\bm A\) 的列空间的维数。

\(\bm A\) 的秩正好是 \(\bm A\) 的主元列的个数。

由于主元列的个数加上非主元列的个数等于 \(\bm A\) 的列数,可得如下定理:

定理 14(秩定理)

如果一矩阵有 \(n\) 列,则 \(\mathrm{rank}\bm A+\dim\mathrm{Nul}\bm A=n\)

定理 15(基定理)

\(H\)\(\mathbb{R}^n\)\(p\) 维子空间,\(H\) 中的任何恰好由 \(p\) 个元素组成的线性无关集构成 \(H\) 的一个基。并且,\(H\) 中任何生成 \(H\)\(p\) 个向量集自然也构成 \(H\) 的一个基。

秩与可逆矩阵定理

定理 16(可逆矩阵定理8(续))

\(\bm A\)\(n\times n\) 矩阵,则下面的每个命题与 \(\bm A\) 是可逆矩阵的命题等价:

\(\text{m}.\) \(\bm A\) 的列向量构成 \(\mathrm{R}^n\) 的一个基。

\(\text{n}.\) \(\mathrm{Col}\bm A=\mathbb{R}^n\)

\(\text{o}.\) \(\mathrm{rank}\bm A=n\)

\(\text{p}.\) \(\dim\mathrm{Nul}\bm A=0\)

\(\text{q}.\) \(\mathrm{Nul}\bm A=\{\bm0\}\)

回顾定理可知命题 \(\text{m}\) 逻辑上与命题 \(\text{e}\)\(\text{h}\) 等价,且

\[\text{g}\Rightarrow\text{n}\Rightarrow\text{o}\Rightarrow\text{p}\Rightarrow\text{q}\Rightarrow\text{d} \]

因为命题 \(\text{d}\)\(\text{g}\)\(\bm A\) 是可逆矩阵的命题等价,得证。

数值计算

我们已学算法通常不适于处理现实生活中的大规模问题。

例如矩阵 \(\begin{bmatrix}5&7\\5&x\end{bmatrix}\),它的秩可能是 \(1\)\(2\),这取决于计算机是否视 \(x-7\) 为零。

posted @ 2024-04-22 22:07  SError  阅读(13)  评论(1编辑  收藏  举报