Loading

机器学习基础——线代

1 基本符号

  • \(A \in \mathbb{R}^{m \times n}\),表示 \(A\) 为由实数组成具有\(m\)行和\(n\)列的矩阵。

  • \(x \in \mathbb{R}^{ n}\),表示具有\(n\)个元素的向量。 通常,向量\(x\)将表示列向量: 即,具有\(n\)行和\(1\)列的矩阵。 如果我们想要明确地表示行向量: 具有 \(1\) 行和\(n\)列的矩阵 - 我们通常写\(x^T\)(这里\(x^T\)\(x\)的转置)。

  • \(x_i\)表示向量\(x\)的第\(i\)个元素

\[x=\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{n}}\end{array}\right] \]

  • 我们使用符号 \(a_{ij}\)(或\(A_{ij}\),\(A_{i,j}\)等)来表示第 \(i\) 行和第\(j\)列中的 \(A\) 的元素:

\[A=\left[\begin{array}{cccc}{a_{11}} & {a_{12}} & {\cdots} & {a_{1 n}} \\ {a_{21}} & {a_{22}} & {\cdots} & {a_{2 n}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {a_{m 1}} & {a_{m 2}} & {\cdots} & {a_{m n}}\end{array}\right] \]

  • 我们用\(a^j\)或者\(A_{:,j}\)表示矩阵\(A\)的第\(j\)列:

\[A=\left[\begin{array}{llll}{ |} & { |} & {} & { |} \\ {a^{1}} & {a^{2}} & {\cdots} & {a^{n}} \\ { |} & { |} & {} & { |}\end{array}\right] \]

  • 我们用\(a^T_i\)或者\(A_{i,:}\)表示矩阵\(A\)的第\(i\)行:

    \[A=\left[\begin{array}{c}{-a_{1}^{T}-} \\ {-a_{2}^{T}-} \\ {\vdots} \\ {-a_{m}^{T}-}\end{array}\right] \]

2 行列式

行列式按行(列)展开定理

(1) 设\(A = ( a_{{ij}} )_{n \times n}\),则:\(a_{i1}A_{j1} +a_{i2}A_{j2} + \cdots + a_{{in}}A_{{jn}} = \begin{cases}|A|,i=j\\ 0,i \neq j\end{cases}\)

\(a_{1i}A_{1j} + a_{2i}A_{2j} + \cdots + a_{{ni}}A_{{nj}} = \begin{cases}|A|,i=j\\ 0,i \neq j\end{cases}\)\(AA^{*} = A^{*}A = \left| A \right|E,\)其中:\(A^{*} = \begin{pmatrix} A_{11} & A_{12} & \ldots & A_{1n} \\ A_{21} & A_{22} & \ldots & A_{2n} \\ \ldots & \ldots & \ldots & \ldots \\ A_{n1} & A_{n2} & \ldots & A_{{nn}} \\ \end{pmatrix} = (A_{{ji}}) = {(A_{{ij}})}^{T}\)

\(D_{n} = \begin{vmatrix} 1 & 1 & \ldots & 1 \\ x_{1} & x_{2} & \ldots & x_{n} \\ \ldots & \ldots & \ldots & \ldots \\ x_{1}^{n - 1} & x_{2}^{n - 1} & \ldots & x_{n}^{n - 1} \\ \end{vmatrix} = \prod_{1 \leq j < i \leq n}^{}\,(x_{i} - x_{j})\)

(2) 设\(A,B\)\(n\)阶方阵,则\(\left| {AB} \right| = \left| A \right|\left| B \right| = \left| B \right|\left| A \right| = \left| {BA} \right|\),但\(\left| A \pm B \right| = \left| A \right| \pm \left| B \right|\)不一定成立。

(3) \(\left| {kA} \right| = k^{n}\left| A \right|\),\(A\)\(n\)阶方阵。

(4) 设\(A\)\(n\)阶方阵,\(|A^{T}| = |A|;|A^{- 1}| = |A|^{- 1}\)(若\(A\)可逆),\(|A^{*}| = |A|^{n - 1}\)

\(n \geq 2\)

(5) \(\left| \begin{matrix} & {A\quad O} \\ & {O\quad B} \\ \end{matrix} \right| = \left| \begin{matrix} & {A\quad C} \\ & {O\quad B} \\ \end{matrix} \right| = \left| \begin{matrix} & {A\quad O} \\ & {C\quad B} \\ \end{matrix} \right| =| A||B|\)
\(A,B\)为方阵,但\(\left| \begin{matrix} {O} & A_{m \times m} \\ B_{n \times n} & { O} \\ \end{matrix} \right| = ({- 1)}^{{mn}}|A||B|\)

(6) 范德蒙行列式\(D_{n} = \begin{vmatrix} 1 & 1 & \ldots & 1 \\ x_{1} & x_{2} & \ldots & x_{n} \\ \ldots & \ldots & \ldots & \ldots \\ x_{1}^{n - 1} & x_{2}^{n 1} & \ldots & x_{n}^{n - 1} \\ \end{vmatrix} = \prod_{1 \leq j < i \leq n}^{}\,(x_{i} - x_{j})\)

\(A\)\(n\)阶方阵,\(\lambda_{i}(i = 1,2\cdots,n)\)\(A\)\(n\)个特征值,则
\(|A| = \prod_{i = 1}^{n}\lambda_{i}\)

3 矩阵

矩阵:\(m \times n\)个数\(a_{{ij}}\)排成\(m\)\(n\)列的表格\(\begin{bmatrix} a_{11}\quad a_{12}\quad\cdots\quad a_{1n} \\ a_{21}\quad a_{22}\quad\cdots\quad a_{2n} \\ \quad\cdots\cdots\cdots\cdots\cdots \\ a_{m1}\quad a_{m2}\quad\cdots\quad a_{{mn}} \\ \end{bmatrix}\) 称为矩阵,简记为\(A\),或者\(\left( a_{{ij}} \right)_{m \times n}\) 。若\(m = n\),则称\(A\)\(n\)阶矩阵或\(n\)阶方阵。

3.1 矩阵的属性

3.1.1 单位矩阵和对角矩阵

单位矩阵,$I \in \mathbb{R}^{n \times n} $,它是一个方阵,对角线的元素是1,其余元素都是0:

\[I_{i j}=\left\{\begin{array}{ll}{1} & {i=j} \\ {0} & {i \neq j}\end{array}\right. \]

对于所有\(A \in \mathbb{R}^ {m \times n}\),有:

\[AI = A = IA \]

注意,在某种意义上,单位矩阵的表示法是不明确的,因为它没有指定\(I\)的维数。通常,\(I\)的维数是从上下文推断出来的,以便使矩阵乘法成为可能。 例如,在上面的等式中,\(AI = A\)中的I是\(n\times n\)矩阵,而\(A = IA\)中的\(I\)\(m\times m\)矩阵。

对角矩阵是一种这样的矩阵:对角线之外的元素全为0。对角阵通常表示为:\(D= diag(d_1, d_2, . . . , d_n)\),其中:

\[D_{i j}=\left\{\begin{array}{ll}{d_{i}} & {i=j} \\ {0} & {i \neq j}\end{array}\right. \]

很明显:单位矩阵$ I = diag(1, 1, . . . , 1)$。

3.1.2 转置

矩阵的转置是指翻转矩阵的行和列。

给定一个矩阵:

\(A \in \mathbb{R}^ {m \times n}\), 它的转置为\(n \times m\)的矩阵\(A^T \in \mathbb{R}^ {n \times m}\) ,其中的元素为:

\[(A^T)_{ij} = A_{ji} \]

事实上,我们在描述行向量时已经使用了转置,因为列向量的转置自然是行向量。

转置的以下属性很容易验证:

  • \((A^T )^T = A\)
  • $ (AB)^T = B^T A^T$
  • \((A + B)^T = A^T + B^T\)

3.1.3 矩阵的逆

方阵\(A \in \mathbb{R}^{n \times n}\)的倒数表示为\(A^{-1}\),并且是这样的独特矩阵:

\[A^{-1}A=I=AA^{-1} \]

请注意,并非所有矩阵都具有逆。 例如,非方形矩阵根据定义没有逆。 然而,对于一些方形矩阵\(A\),可能仍然存在\(A^{-1}\)可能不存在的情况。 特别是,如果\(A^{-1}\)存在,我们说\(A\)可逆的或非奇异的,否则就是不可逆奇异的。
为了使方阵A具有逆\(A^{-1}\),则\(A\)必须是满秩。 我们很快就会发现,除了满秩之外,还有许多其它的充分必要条件。
以下是逆的属性; 假设\(A,B \in \mathbb{R}^{n \times n}\),而且是非奇异的:

  • \((A^{-1})^{-1} = A\)
  • \((AB)^{-1} = B^{-1}A^{-1}\)
  • $(A{-1}) =(A{T}) \(因此,该矩阵通常表示为\)A^{-T}\(。 作为如何使用逆的示例,考虑线性方程组,\)Ax = b\(,其中\)A \in \mathbb{R}^{n \times n}\(,\)x,b\in \mathbb{R}\(, 如果\)A\(是非奇异的(即可逆的),那么\)x = A^{-1}b$。

3.1.4 对称矩阵

如果\(A = A^T\),则矩阵\(A \in \mathbb{R}^ {n \times n}\)是对称矩阵。 如果$ A = - A^T\(,它是反对称的。 很容易证明,对于任何矩阵\)A \in \mathbb{R}^ {n \times n}\(,矩阵\)A + A^ T\(是对称的,矩阵\)A -A^T\(是反对称的。 由此得出,任何方矩阵\)A \in \mathbb{R}^ {n \times n}$可以表示为对称矩阵和反对称矩阵的和,所以:

\[A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T) \]

上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中用到很多,它们有很多很好的属性,我们很快就会看到它们。
通常将大小为\(n\)的所有对称矩阵的集合表示为\(\mathbb{S}^n\),因此\(A \in \mathbb{S}^n\)意味着\(A\)是对称的\(n\times n\)矩阵;

3.1.5 正交阵

如果 \(x^Ty=0\),则两个向量\(x,y\in \mathbb{R}^{n}\)正交的。如果\(\|x\|_2=1\),则向量\(x\in \mathbb{R}^{n}\) 被归一化。如果一个方阵\(U\in \mathbb{R}^{n \times n}\)的所有列彼此正交并被归一化(这些列然后被称为正交),则方阵\(U\)是正交阵(注意在讨论向量时的意义不一样)。

它可以从正交性和正态性的定义中得出:

\[U^ TU = I = U U^T \]

换句话说,正交矩阵的逆是其转置。 注意,如果\(U\)不是方阵 :即,\(U\in \mathbb{R}^{m \times n}\)\(n <m\) ,但其列仍然是正交的,则\(U^TU = I\),但是\(UU^T \neq I\)。我们通常只使用术语"正交"来描述先前的情况 ,其中\(U\)是方阵。
正交矩阵的另一个好的特性是在具有正交矩阵的向量上操作不会改变其欧几里德范数,即:

\[\|U x\|_{2}=\|x\|_{2} \]

对于任何 \(x\in \mathbb{R}\) , \(U\in \mathbb{R}^{n}\)是正交的。

3.1.6 矩阵的迹

方矩阵\(A \in \mathbb{R}^ {n \times n}\)的迹,表示为\(\operatorname{tr} (A)\)(或者只是\(\operatorname{tr} A\),如果括号显然是隐含的),是矩阵中对角元素的总和:

\[\operatorname{tr} A=\sum_{i=1}^{n} A_{i i} \]

迹具有以下属性(如下所示):

  • 对于矩阵\(A \in \mathbb{R}^ {n \times n}\),则:\(\operatorname{tr}A =\operatorname{tr}A^T\)

  • 对于矩阵\(A,B \in \mathbb{R}^ {n \times n}\),则:\(\operatorname{tr}(A + B) = \operatorname{tr}A + \operatorname{tr}B\)

  • 对于矩阵\(A \in \mathbb{R}^ {n \times n}\),$ t \in \mathbb{R}\(,则:\)\operatorname{tr}(tA) = t\operatorname{tr}A$.

  • 对于矩阵 \(A\), \(B\)\(AB\) 为方阵, 则:\(\operatorname{tr}AB = \operatorname{tr}BA\)

  • 对于矩阵 \(A\), \(B\), \(C\), \(ABC\)为方阵, 则:\(\operatorname{tr}ABC = \operatorname{tr}BCA=\operatorname{tr}CAB\), 同理,更多矩阵的积也是有这个性质。

作为如何证明这些属性的示例,我们将考虑上面给出的第四个属性。 假设\(A \in \mathbb{R}^ {m \times n}\)\(B \in \mathbb{R}^ {n \times m}\)(因此\(AB \in \mathbb{R}^ {m \times m}\)是方阵)。 观察到\(BA \in \mathbb{R}^ {n \times n}\)也是一个方阵,因此对它们进行迹的运算是有意义的。 要证明\(\operatorname{tr}AB = \operatorname{tr}BA\),请注意:

\[\begin{aligned} \operatorname{tr} A B &=\sum_{i=1}^{m}(A B)_{i i}=\sum_{i=1}^{m}\left(\sum_{j=1}^{n} A_{i j} B_{j i}\right) \\ &=\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j} B_{j i}=\sum_{j=1}^{n} \sum_{i=1}^{m} B_{j i} A_{i j} \\ &=\sum_{j=1}^{n}\left(\sum_{i=1}^{m} B_{j i} A_{i j}\right)=\sum_{j=1}^{n}(B A)_{j j}=\operatorname{tr} B A \end{aligned} \]

这里,第一个和最后两个等式使用迹运算符和矩阵乘法的定义,重点在第四个等式,使用标量乘法的可交换性来反转每个乘积中的项的顺序,以及标量加法的可交换性和相关性,以便重新排列求和的顺序。

3.1.7 矩阵的范数

向量的范数\(\|x\|\)是非正式度量的向量的“长度” 。 例如,我们有常用的欧几里德或\(\ell_{2}\)范数,

\[\|x\|_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}} \]

注意:\(\|x\|_{2}^{2}=x^{T} x\)

更正式地,范数是满足4个属性的函数(\(f : \mathbb{R}^{n} \rightarrow \mathbb{R}\)):

  1. 对于所有的 \(x \in \mathbb{R}^ {n}\), $f(x) \geq 0 $(非负).
  2. 当且仅当\(x = 0\) 时,\(f(x) = 0\) (明确性).
  3. 对于所有\(x \in \mathbb{R}^ {n}\),\(t\in \mathbb{R}\),则 \(f(tx) = \left| t \right|f(x)\) (正齐次性).
  4. 对于所有 \(x,y \in \mathbb{R}^ {n}\), \(f(x + y) \leq f(x) + f(y)\) (三角不等式)

其他范数的例子是\(\ell_1\)范数:

\[\|x\|_{1}=\sum_{i=1}^{n}\left|x_{i}\right| \]

\(\ell_{\infty }\)范数:

\[\|x\|_{\infty}=\max _{i}\left|x_{i}\right| \]

事实上,到目前为止所提出的所有三个范数都是\(\ell_p\)范数族的例子,它们由实数\(p \geq 1\)参数化,并定义为:

\[\|x\|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p} \]

也可以为矩阵定义范数,例如Frobenius范数:

\[\|A\|_{F}=\sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j}^{2}}=\sqrt{\operatorname{tr}\left(A^{T} A\right)} \]

3.2 矩阵的线性运算

3.2.1 矩阵的加法

\(A = (a_{{ij}}),B = (b_{{ij}})\)是两个\(m \times n\)矩阵,则\(m \times n\) 矩阵\(C = c_{{ij}}) = a_{{ij}} + b_{{ij}}\)称为矩阵\(A\)\(B\)的和,记为\(A + B = C\)

3.2.2 矩阵的数乘

\(A = (a_{{ij}})\)\(m \times n\)矩阵,\(k\)是一个常数,则\(m \times n\)矩阵\((ka_{{ij}})\)称为数\(k\)与矩阵\(A\)的数乘,记为\({kA}\)

3.2.3 矩阵的乘法

\(A = (a_{{ij}})\)\(m \times n\)矩阵,\(B = (b_{{ij}})\)\(n \times s\)矩阵,那么\(m \times s\)矩阵\(C = (c_{{ij}})\),其中\(c_{{ij}} = a_{i1}b_{1j} + a_{i2}b_{2j} + \cdots + a_{{in}}b_{{nj}} = \sum_{k =1}^{n}{a_{{ik}}b_{{kj}}}\)称为\({AB}\)的乘积,记为\(C = AB\)

3.2.4 \(\mathbf{A}^{\mathbf{T}}\)\(\mathbf{A}^{\mathbf{-1}}\)\(\mathbf{A}^{\mathbf{*}}\)三者之间的关系

(1) \({(A^{T})}^{T} = A,{(AB)}^{T} = B^{T}A^{T},{(kA)}^{T} = kA^{T},{(A \pm B)}^{T} = A^{T} \pm B^{T}\)

(2) \(\left( A^{- 1} \right)^{- 1} = A,\left( {AB} \right)^{- 1} = B^{- 1}A^{- 1},\left( {kA} \right)^{- 1} = \frac{1}{k}A^{- 1},\)

\({(A \pm B)}^{- 1} = A^{- 1} \pm B^{- 1}\)不一定成立。

(3) \(\left( A^{*} \right)^{*} = |A|^{n - 2}\ A\ \ (n \geq 3)\)\(\left({AB} \right)^{*} = B^{*}A^{*},\) \(\left( {kA} \right)^{*} = k^{n -1}A^{*}{\ \ }\left( n \geq 2 \right)\)

\(\left( A \pm B \right)^{*} = A^{*} \pm B^{*}\)不一定成立。

(4) \({(A^{- 1})}^{T} = {(A^{T})}^{- 1},\ \left( A^{- 1} \right)^{*} ={(AA^{*})}^{- 1},{(A^{*})}^{T} = \left( A^{T} \right)^{*}\)

3.2.5 有关\(\mathbf{A}^{\mathbf{*}}\)的结论

(1) \(AA^{*} = A^{*}A = |A|E\)

(2) \(|A^{*}| = |A|^{n - 1}\ (n \geq 2),\ \ \ \ {(kA)}^{*} = k^{n -1}A^{*},{{\ \ }\left( A^{*} \right)}^{*} = |A|^{n - 2}A(n \geq 3)\)

(3) 若\(A\)可逆,则\(A^{*} = |A|A^{- 1},{(A^{*})}^{*} = \frac{1}{|A|}A\)

(4) 若\(A\)\(n\)阶方阵,则:

\(r(A^*)=\begin{cases}n,\quad r(A)=n\\ 1,\quad r(A)=n-1\\ 0,\quad r(A)<n-1\end{cases}\)

3.2.6 有关\(\mathbf{A}^{\mathbf{- 1}}\)的结论

\(A\)可逆\(\Leftrightarrow AB = E; \Leftrightarrow |A| \neq 0; \Leftrightarrow r(A) = n;\)

\(\Leftrightarrow A\)可以表示为初等矩阵的乘积;\(\Leftrightarrow A;\Leftrightarrow Ax = 0\)

3.2.7 有关矩阵秩的结论

(1) 秩\(r(A)\)=行秩=列秩;

(2) \(r(A_{m \times n}) \leq \min(m,n);\)

(3) \(A \neq 0 \Rightarrow r(A) \geq 1\)

(4) \(r(A \pm B) \leq r(A) + r(B);\)

(5) 初等变换不改变矩阵的秩

(6) \(r(A) + r(B) - n \leq r(AB) \leq \min(r(A),r(B)),\)特别若\(AB = O\)
则:\(r(A) + r(B) \leq n\)

(7) 若\(A^{- 1}\)存在\(\Rightarrow r(AB) = r(B);\)\(B^{- 1}\)存在
\(\Rightarrow r(AB) = r(A);\)

\(r(A_{m \times n}) = n \Rightarrow r(AB) = r(B);\)\(r(A_{m \times s}) = n\Rightarrow r(AB) = r\left( A \right)\)

(8) \(r(A_{m \times s}) = n \Leftrightarrow Ax = 0\)只有零解

3.2.8 分块求逆公式

\(\begin{pmatrix} A & O \\ O & B \\ \end{pmatrix}^{- 1} = \begin{pmatrix} A^{-1} & O \\ O & B^{- 1} \\ \end{pmatrix}\)\(\begin{pmatrix} A & C \\ O & B \\\end{pmatrix}^{- 1} = \begin{pmatrix} A^{- 1}& - A^{- 1}CB^{- 1} \\ O & B^{- 1} \\ \end{pmatrix}\)

\(\begin{pmatrix} A & O \\ C & B \\ \end{pmatrix}^{- 1} = \begin{pmatrix} A^{- 1}&{O} \\ - B^{- 1}CA^{- 1} & B^{- 1} \\\end{pmatrix}\)\(\begin{pmatrix} O & A \\ B & O \\ \end{pmatrix}^{- 1} =\begin{pmatrix} O & B^{- 1} \\ A^{- 1} & O \\ \end{pmatrix}\)

这里\(A\)\(B\)均为可逆方阵。

3.3 矩阵微积分

虽然前面章节中的主题通常包含在线性代数的标准课程中,但似乎很少涉及(我们将广泛使用)的一个主题是微积分扩展到向量设置展。尽管我们使用的所有实际微积分都是相对微不足道的,但是符号通常会使事情看起来比实际困难得多。 在本节中,我们将介绍矩阵微积分的一些基本定义,并提供一些示例。

3.3.1 梯度

假设\(f: \mathbb{R}^{m \times n} \rightarrow \mathbb{R}\)是将维度为\(m \times n\)的矩阵\(A\in \mathbb{R}^{m \times n}\)作为输入并返回实数值的函数。 然后\(f\)的梯度(相对于\(A\in \mathbb{R}^{m \times n}\))是偏导数矩阵,定义如下:

\[\nabla_{A} f(A) \in \mathbb{R}^{m \times n}=\left[\begin{array}{cccc}{\frac{\partial f(A)}{\partial A_{11}}} & {\frac{\partial f(A)}{\partial A_{12}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{1n}}} \\ {\frac{\partial f(A)}{\partial A_{21}}} & {\frac{\partial f(A)}{\partial A_{22}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{2 n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial f(A)}{\partial A_{m 1}}} & {\frac{\partial f(A)}{\partial A_{m 2}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{m n}}}\end{array}\right] \]

即,\(m \times n\)矩阵:

\[\left(\nabla_{A} f(A)\right)_{i j}=\frac{\partial f(A)}{\partial A_{i j}} \]

请注意,$\nabla_{A} f(A) \(的维度始终与\)A\(的维度相同。特殊情况,如果\)A\(只是向量\)A\in \mathbb{R}^{n}$,则

\[\nabla_{x} f(x)=\left[\begin{array}{c}{\frac{\partial f(x)}{\partial x_{1}}} \\ {\frac{\partial f(x)}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{n}}}\end{array}\right] \]

重要的是要记住,只有当函数是实值时,即如果函数返回标量值,才定义函数的梯度。例如,\(A\in \mathbb{R}^{m \times n}\)相对于\(x\),我们不能取\(Ax\)的梯度,因为这个量是向量值。
它直接从偏导数的等价性质得出:

  • \(\nabla_{x}(f(x)+g(x))=\nabla_{x} f(x)+\nabla_{x} g(x)\)

  • 对于\(t \in \mathbb{R}\)\(\nabla_{x}(t f(x))=t \nabla_{x} f(x)\)

原则上,梯度是偏导数对多变量函数的自然延伸。然而,在实践中,由于符号的原因,使用梯度有时是很困难的。例如,假设\(A\in \mathbb{R}^{m \times n}\)是一个固定系数矩阵,假设\(b\in \mathbb{R}^{m}\)是一个固定系数向量。设\(f: \mathbb{R}^{m \times n} \rightarrow \mathbb{R}\)\(f(z)=z^Tz\)定义的函数,因此\(\nabla_{z}f(z)=2z\)。但现在考虑表达式,

\[\nabla f(Ax) \]

该表达式应该如何解释? 至少有两种可能性:
1.在第一个解释中,回想起\(\nabla_{z}f(z)=2z\)。 在这里,我们将\(\nabla f(Ax)\)解释为评估点\(Ax\)处的梯度,因此:

\[\nabla f(A x)=2(A x)=2 A x \in \mathbb{R}^{m} \]

2.在第二种解释中,我们将数量\(f(Ax)\)视为输入变量\(x\)的函数。 更正式地说,设\(g(x) =f(Ax)\)。 然后在这个解释中:

\[\nabla f(A x)=\nabla_{x} g(x) \in \mathbb{R}^{n} \]

在这里,我们可以看到这两种解释确实不同。 一种解释产生\(m\)维向量作为结果,而另一种解释产生\(n\)维向量作为结果! 我们怎么解决这个问题?

这里,关键是要明确我们要区分的变量。
在第一种情况下,我们将函数\(f\)与其参数\(z\)进行区分,然后替换参数\(Ax\)
在第二种情况下,我们将复合函数\(g(x)=f(Ax)\)直接与\(x\)进行微分。

我们将第一种情况表示为\(\nabla zf(Ax)\),第二种情况表示为\(\nabla xf(Ax)\)

保持符号清晰是非常重要的,以后完成课程作业时候你就会发现。

3.3.2 黑塞矩阵

假设\(f: \mathbb{R}^{n} \rightarrow \mathbb{R}\)是一个函数,它接受\(\mathbb{R}^{n}\)中的向量并返回实数。那么关于\(x\)黑塞矩阵(也有翻译作海森矩阵),写做:\(\nabla_x ^2 f(A x)\),或者简单地说,\(H\)\(n \times n\)矩阵的偏导数:

\[\nabla_{x}^{2} f(x) \in \mathbb{R}^{n \times n}=\left[\begin{array}{cccc}{\frac{\partial^{2} f(x)}{\partial x_{1}^{2}}} & {\frac{\partial^{2} f(x)}{\partial x_{1} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{1} \partial x_{n}}} \\ {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{1}}} & {\frac{\partial^{2} f(x)}{\partial x_{2}^{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial^{2} f(x)}{\partial x_{n} \partial x_{1}}} & {\frac{\partial^{2} f(x)}{\partial x_{n} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{n}^{2}}}\end{array}\right] \]

换句话说,\(\nabla_{x}^{2} f(x) \in \mathbb{R}^{n \times n}\),其:

\[\left(\nabla_{x}^{2} f(x)\right)_{i j}=\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{j}} \]

注意:黑塞矩阵通常是对称阵:

\[\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{j}}=\frac{\partial^{2} f(x)}{\partial x_{j} \partial x_{i}} \]

与梯度相似,只有当\(f(x)\)为实值时才定义黑塞矩阵。

很自然地认为梯度与向量函数的一阶导数的相似,而黑塞矩阵与二阶导数的相似(我们使用的符号也暗示了这种关系)。 这种直觉通常是正确的,但需要记住以下几个注意事项。
首先,对于一个变量\(f: \mathbb{R} \rightarrow \mathbb{R}\)的实值函数,它的基本定义:二阶导数是一阶导数的导数,即:

\[\frac{\partial^{2} f(x)}{\partial x^{2}}=\frac{\partial}{\partial x} \frac{\partial}{\partial x} f(x) \]

然而,对于向量的函数,函数的梯度是一个向量,我们不能取向量的梯度,即:

\[\nabla_{x} \nabla_{x} f(x)=\nabla_{x}\left[\begin{array}{c}{\frac{\partial f(x)}{\partial x_{1}}} \\ {\frac{\partial f(x)}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{n}}}\end{array}\right] \]

上面这个表达式没有意义。 因此,黑塞矩阵不是梯度的梯度。 然而,下面这种情况却这几乎是正确的:如果我们看一下梯度\(\left(\nabla_{x} f(x)\right)_{i}=\partial f(x) / \partial x_{i}\)的第\(i\)个元素,并取关于于\(x\)的梯度我们得到:

\[\nabla_{x} \frac{\partial f(x)}{\partial x_{i}}=\left[\begin{array}{c}{\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{1}}} \\ {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{i} \partial x_{n}}}\end{array}\right] \]

这是黑塞矩阵第\(i\)行(列),所以:

\[\nabla_{x}^{2} f(x)=\left[\nabla_{x}\left(\nabla_{x} f(x)\right)_{1} \quad \nabla_{x}\left(\nabla_{x} f(x)\right)_{2} \quad \cdots \quad \nabla_{x}\left(\nabla_{x} f(x)\right)_{n}\right] \]

简单地说:我们可以说由于:\(\nabla_{x}^{2} f(x)=\nabla_{x}\left(\nabla_{x} f(x)\right)^{T}\),只要我们理解,这实际上是取\(\nabla_{x} f(x)\)的每个元素的梯度,而不是整个向量的梯度。

最后,请注意,虽然我们可以对矩阵\(A\in \mathbb{R}^{n}\)取梯度,但对于这门课,我们只考虑对向量\(x \in \mathbb{R}^{n}\)取黑塞矩阵。
这会方便很多(事实上,我们所做的任何计算都不要求我们找到关于矩阵的黑森方程),因为关于矩阵的黑塞方程就必须对矩阵所有元素求偏导数\(\partial^{2} f(A) /\left(\partial A_{i j} \partial A_{k \ell}\right)\),将其表示为矩阵相当麻烦。

3.3.3 二次函数和线性函数的梯度和黑塞矩阵

现在让我们尝试确定几个简单函数的梯度和黑塞矩阵。

对于\(x \in \mathbb{R}^{n}\), 设\(f(x)=b^Tx\) 的某些已知向量\(b \in \mathbb{R}^{n}\) ,则:

\[f(x)=\sum_{i=1}^{n} b_{i} x_{i} \]

所以:

\[\frac{\partial f(x)}{\partial x_{k}}=\frac{\partial}{\partial x_{k}} \sum_{i=1}^{n} b_{i} x_{i}=b_{k} \]

由此我们可以很容易地看出\(\nabla_{x} b^{T} x=b\)。 这应该与单变量微积分中的类似情况进行比较,其中\(\partial /(\partial x) a x=a\)
现在考虑\(A\in \mathbb{S}^{n}\)的二次函数\(f(x)=x^TAx\)。 记住这一点:

\[f(x)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j} \]

为了取偏导数,我们将分别考虑包括\(x_k\)\(x_2^k\)因子的项:

\[\begin{aligned} \frac{\partial f(x)}{\partial x_{k}} &=\frac{\partial}{\partial x_{k}} \sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j} \\ &=\frac{\partial}{\partial x_{k}}\left[\sum_{i \neq k} \sum_{j \neq k} A_{i j} x_{i} x_{j}+\sum_{i \neq k} A_{i k} x_{i} x_{k}+\sum_{j \neq k} A_{k j} x_{k} x_{j}+A_{k k} x_{k}^{2}\right] \\ &=\sum_{i \neq k} A_{i k} x_{i}+\sum_{j \neq k} A_{k j} x_{j}+2 A_{k k} x_{k} \\ &=\sum_{i=1}^{n} A_{i k} x_{i}+\sum_{j=1}^{n} A_{k j} x_{j}=2 \sum_{i=1}^{n} A_{k i} x_{i} \end{aligned} \]

最后一个等式,是因为\(A\)是对称的(我们可以安全地假设,因为它以二次形式出现)。 注意,\(\nabla_{x} f(x)\)的第\(k\)个元素是\(A\)\(x\)的第\(k\)行的内积。 因此,\(\nabla_{x} x^{T} A x=2 A x\)。 同样,这应该提醒你单变量微积分中的类似事实,即\(\partial /(\partial x) a x^{2}=2 a x\)

最后,让我们来看看二次函数\(f(x)=x^TAx\)黑塞矩阵(显然,线性函数\(b^Tx\)的黑塞矩阵为零)。在这种情况下:

\[\frac{\partial^{2} f(x)}{\partial x_{k} \partial x_{\ell}}=\frac{\partial}{\partial x_{k}}\left[\frac{\partial f(x)}{\partial x_{\ell}}\right]=\frac{\partial}{\partial x_{k}}\left[2 \sum_{i=1}^{n} A_{\ell i} x_{i}\right]=2 A_{\ell k}=2 A_{k \ell} \]

因此,应该很清楚\(\nabla_{x}^2 x^{T} A x=2 A\),这应该是完全可以理解的(同样类似于\(\partial^2 /(\partial x^2) a x^{2}=2a\)的单变量事实)。

简要概括起来:

  • \(\nabla_{x} b^{T} x=b\)

  • \(\nabla_{x} x^{T} A x=2 A x\) (如果\(A\)是对称阵)

  • $\nabla_{x}^2 x^{T} A x=2 A $ (如果\(A\)是对称阵)

3.3.4 最小二乘法

让我们应用上一节中得到的方程来推导最小二乘方程。假设我们得到矩阵\(A\in \mathbb{R}^{m \times n}\)(为了简单起见,我们假设\(A\)是满秩)和向量\(b\in \mathbb{R}^{m}\),从而使\(b \notin \mathcal{R}(A)\)。在这种情况下,我们将无法找到向量\(x\in \mathbb{R}^{n}\),由于\(Ax = b\),因此我们想要找到一个向量\(x\),使得\(Ax\)尽可能接近 \(b\),用欧几里德范数的平方$|A x-b|_{2}^{2} $来衡量。

使用公式\(\|x\|^{2}=x^Tx\),我们可以得到:

\[\begin{aligned}\|A x-b\|_{2}^{2} &=(A x-b)^{T}(A x-b) \\ &=x^{T} A^{T} A x-2 b^{T} A x+b^{T} b \end{aligned} \]

根据\(x\)的梯度,并利用上一节中推导的性质:

\[\begin{aligned} \nabla_{x}\left(x^{T} A^{T} A x-2 b^{T} A x+b^{T} b\right) &=\nabla_{x} x^{T} A^{T} A x-\nabla_{x} 2 b^{T} A x+\nabla_{x} b^{T} b \\ &=2 A^{T} A x-2 A^{T} b \end{aligned} \]

将最后一个表达式设置为零,然后解出\(x\),得到了正规方程:

\[x = (A^TA)^{-1}A^Tb \]

这和我们在课堂上得到的相同。

3.3.5 行列式的梯度

现在让我们考虑一种情况,我们找到一个函数相对于矩阵的梯度,也就是说,对于\(A\in \mathbb{R}^{n \times n}\),我们要找到\(\nabla_{A}|A|\)。回想一下我们对行列式的讨论:

\[|A|=\sum_{i=1}^{n}(-1)^{i+j} A_{i j}\left|A_{\backslash i, \backslash j}\right| \quad(\text { for any } j \in 1, \ldots, n) \]

所以:

\[\frac{\partial}{\partial A_{k \ell}}|A|=\frac{\partial}{\partial A_{k \ell}} \sum_{i=1}^{n}(-1)^{i+j} A_{i j}\left|A_{\backslash i, \backslash j}\right|=(-1)^{k+\ell}\left|A_{\backslash k,\backslash \ell}\right|=(\operatorname{adj}(A))_{\ell k} \]

从这里可以知道,它直接从伴随矩阵的性质得出:

\[\nabla_{A}|A|=(\operatorname{adj}(A))^{T}=|A| A^{-T} \]

现在我们来考虑函数\(f : \mathbb{S}_{++}^{n} \rightarrow \mathbb{R}\)\(f(A)=\log |A|\)。注意,我们必须将\(f\)的域限制为正定矩阵,因为这确保了\(|A|>0\),因此\(|A|\)的对数是实数。在这种情况下,我们可以使用链式法则(没什么奇怪的,只是单变量演算中的普通链式法则)来看看:

\[\frac{\partial \log |A|}{\partial A_{i j}}=\frac{\partial \log |A|}{\partial|A|} \frac{\partial|A|}{\partial A_{i j}}=\frac{1}{|A|} \frac{\partial|A|}{\partial A_{i j}} \]

从这一点可以明显看出:

\[\nabla_{A} \log |A|=\frac{1}{|A|} \nabla_{A}|A|=A^{-1} \]

我们可以在最后一个表达式中删除转置,因为\(A\)是对称的。注意与单值情况的相似性,其中\(\partial /(\partial x) \log x=1 / x\)

3.3.6 特征值优化

最后,我们使用矩阵演算以直接导致特征值/特征向量分析的方式求解优化问题。 考虑以下等式约束优化问题:

\[\max _{x \in \mathbb{R}^{n}} x^{T} A x \quad \text { subject to }\|x\|_{2}^{2}=1 \]

对于对称矩阵\(A\in \mathbb{S}^{n}\)。求解等式约束优化问题的标准方法是采用拉格朗日形式,一种包含等式约束的目标函数,在这种情况下,拉格朗日函数可由以下公式给出:

\[\mathcal{L}(x, \lambda)=x^{T} A x-\lambda x^{T} x \]

其中,$\lambda \(被称为与等式约束关联的拉格朗日乘子。可以确定,要使\)x*$成为问题的最佳点,拉格朗日的梯度必须在$x*$处为零(这不是唯一的条件,但它是必需的)。也就是说,

\[\nabla_{x} \mathcal{L}(x, \lambda)=\nabla_{x}\left(x^{T} A x-\lambda x^{T} x\right)=2 A^{T} x-2 \lambda x=0 \]

请注意,这只是线性方程\(Ax =\lambda x\)。 这表明假设\(x^T x = 1\),可能最大化(或最小化)\(x^T Ax\)的唯一点是\(A\)的特征向量。

4 向量

4.1 有关向量组的线性表示

(1)\(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)线性相关\(\Leftrightarrow\)至少有一个向量可以用其余向量线性表示。

(2)\(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)线性无关,\(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)\(\beta\)线性相关\(\Leftrightarrow \beta\)可以由\(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)唯一线性表示。

(3) \(\beta\)可以由\(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)线性表示
\(\Leftrightarrow r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}) =r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s},\beta)\)

4.2 有关向量组的线性相关性

(1)部分相关,整体相关;整体无关,部分无关.

(2) ① \(n\)\(n\)维向量
\(\alpha_{1},\alpha_{2}\cdots\alpha_{n}\)线性无关\(\Leftrightarrow \left|\left\lbrack \alpha_{1}\alpha_{2}\cdots\alpha_{n} \right\rbrack \right| \neq0\)\(n\)\(n\)维向量\(\alpha_{1},\alpha_{2}\cdots\alpha_{n}\)线性相关
\(\Leftrightarrow |\lbrack\alpha_{1},\alpha_{2},\cdots,\alpha_{n}\rbrack| = 0\)

\(n + 1\)\(n\)维向量线性相关。

③ 若\(\alpha_{1},\alpha_{2}\cdots\alpha_{S}\)线性无关,则添加分量后仍线性无关;或一组向量线性相关,去掉某些分量后仍线性相关。

4.3 有关向量组的线性表示

(1) \(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)线性相关\(\Leftrightarrow\)至少有一个向量可以用其余向量线性表示。

(2) \(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)线性无关,\(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)\(\beta\)线性相关\(\Leftrightarrow\beta\) 可以由\(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)唯一线性表示。

(3) \(\beta\)可以由\(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)线性表示
\(\Leftrightarrow r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}) =r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s},\beta)\)

4.4 向量组的秩与矩阵的秩之间的关系

\(r(A_{m \times n}) =r\),则\(A\)的秩\(r(A)\)\(A\)的行列向量组的线性相关性关系为:

(1) 若\(r(A_{m \times n}) = r = m\),则\(A\)的行向量组线性无关。

(2) 若\(r(A_{m \times n}) = r < m\),则\(A\)的行向量组线性相关。

(3) 若\(r(A_{m \times n}) = r = n\),则\(A\)的列向量组线性无关。

(4) 若\(r(A_{m \times n}) = r < n\),则\(A\)的列向量组线性相关。

4.5 \(\mathbf{n}\)维向量空间的基变换公式及过渡矩阵

\(\alpha_{1},\alpha_{2},\cdots,\alpha_{n}\)\(\beta_{1},\beta_{2},\cdots,\beta_{n}\)是向量空间\(V\)的两组基,则基变换公式为:

\((\beta_{1},\beta_{2},\cdots,\beta_{n}) = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})\begin{bmatrix} c_{11}& c_{12}& \cdots & c_{1n} \\ c_{21}& c_{22}&\cdots & c_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ c_{n1}& c_{n2} & \cdots & c_{{nn}} \\\end{bmatrix} = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})C\)

其中\(C\)是可逆矩阵,称为由基\(\alpha_{1},\alpha_{2},\cdots,\alpha_{n}\)到基\(\beta_{1},\beta_{2},\cdots,\beta_{n}\)的过渡矩阵。

4.6 坐标变换公式

若向量\(\gamma\)在基\(\alpha_{1},\alpha_{2},\cdots,\alpha_{n}\)与基\(\beta_{1},\beta_{2},\cdots,\beta_{n}\)的坐标分别是
\(X = {(x_{1},x_{2},\cdots,x_{n})}^{T}\)

\(Y = \left( y_{1},y_{2},\cdots,y_{n} \right)^{T}\) 即: \(\gamma =x_{1}\alpha_{1} + x_{2}\alpha_{2} + \cdots + x_{n}\alpha_{n} = y_{1}\beta_{1} +y_{2}\beta_{2} + \cdots + y_{n}\beta_{n}\),则向量坐标变换公式为\(X = CY\)\(Y = C^{- 1}X\),其中\(C\)是从基\(\alpha_{1},\alpha_{2},\cdots,\alpha_{n}\)到基\(\beta_{1},\beta_{2},\cdots,\beta_{n}\)的过渡矩阵。

4.7 向量的内积(Inner Product)

也可以成为点积(Dot Product)或标量积(Scalar Product)

\((\alpha,\beta) = a_{1}b_{1} + a_{2}b_{2} + \cdots + a_{n}b_{n} = \alpha^{T}\beta = \beta^{T}\alpha\)

4.8 Schmidt 正交化

\(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)线性无关,则可构造\(\beta_{1},\beta_{2},\cdots,\beta_{s}\)使其两两正交,且\(\beta_{i}\)仅是\(\alpha_{1},\alpha_{2},\cdots,\alpha_{i}\)的线性组合\((i= 1,2,\cdots,n)\),再把\(\beta_{i}\)单位化,记\(\gamma_{i} =\frac{\beta_{i}}{\left| \beta_{i}\right|}\),则\(\gamma_{1},\gamma_{2},\cdots,\gamma_{i}\)是规范正交向量组。其中
\(\beta_{1} = \alpha_{1}\)\(\beta_{2} = \alpha_{2} -\frac{(\alpha_{2},\beta_{1})}{(\beta_{1},\beta_{1})}\beta_{1}\)\(\beta_{3} =\alpha_{3} - \frac{(\alpha_{3},\beta_{1})}{(\beta_{1},\beta_{1})}\beta_{1} -\frac{(\alpha_{3},\beta_{2})}{(\beta_{2},\beta_{2})}\beta_{2}\)

............

\(\beta_{s} = \alpha_{s} - \frac{(\alpha_{s},\beta_{1})}{(\beta_{1},\beta_{1})}\beta_{1} - \frac{(\alpha_{s},\beta_{2})}{(\beta_{2},\beta_{2})}\beta_{2} - \cdots - \frac{(\alpha_{s},\beta_{s - 1})}{(\beta_{s - 1},\beta_{s - 1})}\beta_{s - 1}\)

4.9 正交基及规范正交基

向量空间一组基中的向量如果两两正交,就称为正交基;若正交基中每个向量都是单位向量,就称其为规范正交基。

5 线性方程组

1. 克莱姆法则

线性方程组\(\begin{cases} a_{11}x_{1} + a_{12}x_{2} + \cdots +a_{1n}x_{n} = b_{1} \\ a_{21}x_{1} + a_{22}x_{2} + \cdots + a_{2n}x_{n} =b_{2} \\ \quad\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots \\ a_{n1}x_{1} + a_{n2}x_{2} + \cdots + a_{{nn}}x_{n} = b_{n} \\ \end{cases}\),如果系数行列式\(D = \left| A \right| \neq 0\),则方程组有唯一解,\(x_{1} = \frac{D_{1}}{D},x_{2} = \frac{D_{2}}{D},\cdots,x_{n} =\frac{D_{n}}{D}\),其中\(D_{j}\)是把\(D\)中第\(j\)列元素换成方程组右端的常数列所得的行列式。

2. \(n\)阶矩阵\(A\)可逆\(\Leftrightarrow Ax = 0\)只有零解。\(\Leftrightarrow\forall b,Ax = b\)总有唯一解,一般地,\(r(A_{m \times n}) = n \Leftrightarrow Ax= 0\)只有零解。

3.非奇次线性方程组有解的充分必要条件,线性方程组解的性质和解的结构

(1) 设\(A\)\(m \times n\)矩阵,若\(r(A_{m \times n}) = m\),则对\(Ax =b\)而言必有\(r(A) = r(A \vdots b) = m\),从而\(Ax = b\)有解。

(2) 设\(x_{1},x_{2},\cdots x_{s}\)\(Ax = b\)的解,则\(k_{1}x_{1} + k_{2}x_{2}\cdots + k_{s}x_{s}\)\(k_{1} + k_{2} + \cdots + k_{s} = 1\)时仍为\(Ax =b\)的解;但当\(k_{1} + k_{2} + \cdots + k_{s} = 0\)时,则为\(Ax =0\)的解。特别\(\frac{x_{1} + x_{2}}{2}\)\(Ax = b\)的解;\(2x_{3} - (x_{1} +x_{2})\)\(Ax = 0\)的解。

(3) 非齐次线性方程组\({Ax} = b\)无解\(\Leftrightarrow r(A) + 1 =r(\overline{A}) \Leftrightarrow b\)不能由\(A\)的列向量\(\alpha_{1},\alpha_{2},\cdots,\alpha_{n}\)线性表示。

4.奇次线性方程组的基础解系和通解,解空间,非奇次线性方程组的通解

(1) 齐次方程组\({Ax} = 0\)恒有解(必有零解)。当有非零解时,由于解向量的任意线性组合仍是该齐次方程组的解向量,因此\({Ax}= 0\)的全体解向量构成一个向量空间,称为该方程组的解空间,解空间的维数是\(n - r(A)\),解空间的一组基称为齐次方程组的基础解系。

(2) \(\eta_{1},\eta_{2},\cdots,\eta_{t}\)\({Ax} = 0\)的基础解系,即:

  1. \(\eta_{1},\eta_{2},\cdots,\eta_{t}\)\({Ax} = 0\)的解;

  2. \(\eta_{1},\eta_{2},\cdots,\eta_{t}\)线性无关;

  3. \({Ax} = 0\)的任一解都可以由\(\eta_{1},\eta_{2},\cdots,\eta_{t}\)线性表出.
    \(k_{1}\eta_{1} + k_{2}\eta_{2} + \cdots + k_{t}\eta_{t}\)\({Ax} = 0\)的通解,其中\(k_{1},k_{2},\cdots,k_{t}\)是任意常数。

6 矩阵的特征值和特征向量

6.1 矩阵的特征值和特征向量的概念及性质

(1) 设\(\lambda\)\(A\)的一个特征值,则 \({kA},{aA} + {bE},A^{2},A^{m},f(A),A^{T},A^{- 1},A^{*}\)有一个特征值分别为
\({kλ},{aλ} + b,\lambda^{2},\lambda^{m},f(\lambda),\lambda,\lambda^{- 1},\frac{|A|}{\lambda},\)且对应特征向量相同(\(A^{T}\) 例外)。

(2)若\(\lambda_{1},\lambda_{2},\cdots,\lambda_{n}\)\(A\)\(n\)个特征值,则\(\sum_{i= 1}^{n}\lambda_{i} = \sum_{i = 1}^{n}a_{{ii}},\prod_{i = 1}^{n}\lambda_{i}= |A|\) ,从而\(|A| \neq 0 \Leftrightarrow A\)没有特征值。

(3)设\(\lambda_{1},\lambda_{2},\cdots,\lambda_{s}\)\(A\)\(s\)个特征值,对应特征向量为\(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}\)

若: \(\alpha = k_{1}\alpha_{1} + k_{2}\alpha_{2} + \cdots + k_{s}\alpha_{s}\) ,

则: \(A^{n}\alpha = k_{1}A^{n}\alpha_{1} + k_{2}A^{n}\alpha_{2} + \cdots +k_{s}A^{n}\alpha_{s} = k_{1}\lambda_{1}^{n}\alpha_{1} +k_{2}\lambda_{2}^{n}\alpha_{2} + \cdots k_{s}\lambda_{s}^{n}\alpha_{s}\)

6.2相似变换、相似矩阵的概念及性质

(1) 若\(A \sim B\),则

  1. \(A^{T} \sim B^{T},A^{- 1} \sim B^{- 1},,A^{*} \sim B^{*}\)

  2. \(|A| = |B|,\sum_{i = 1}^{n}A_{{ii}} = \sum_{i =1}^{n}b_{{ii}},r(A) = r(B)\)

  3. \(|\lambda E - A| = |\lambda E - B|\),对\(\forall\lambda\)成立

6.3 矩阵可相似对角化的充分必要条件

(1)设\(A\)\(n\)阶方阵,则\(A\)可对角化\(\Leftrightarrow\)对每个\(k_{i}\)重根特征值\(\lambda_{i}\),有\(n-r(\lambda_{i}E - A) = k_{i}\)

(2) 设\(A\)可对角化,则由\(P^{- 1}{AP} = \Lambda,\)\(A = {PΛ}P^{-1}\),从而\(A^{n} = P\Lambda^{n}P^{- 1}\)

(3) 重要结论

  1. \(A \sim B,C \sim D\),则\(\begin{bmatrix} A & O \\ O & C \\\end{bmatrix} \sim \begin{bmatrix} B & O \\ O & D \\\end{bmatrix}\).

  2. \(A \sim B\),则\(f(A) \sim f(B),\left| f(A) \right| \sim \left| f(B)\right|\),其中\(f(A)\)为关于\(n\)阶方阵\(A\)的多项式。

  3. \(A\)为可对角化矩阵,则其非零特征值的个数(重根重复计算)=秩(\(A\))

6.4 实对称矩阵的特征值、特征向量及相似对角阵

(1)相似矩阵:设\(A,B\)为两个\(n\)阶方阵,如果存在一个可逆矩阵\(P\),使得\(B =P^{- 1}{AP}\)成立,则称矩阵\(A\)\(B\)相似,记为\(A \sim B\)

(2)相似矩阵的性质:如果\(A \sim B\)则有:

  1. \(A^{T} \sim B^{T}\)

  2. \(A^{- 1} \sim B^{- 1}\) (若\(A\)\(B\)均可逆)

  3. \(A^{k} \sim B^{k}\)\(k\)为正整数)

  4. \(\left| {λE} - A \right| = \left| {λE} - B \right|\),从而\(A,B\)
    有相同的特征值

  5. \(\left| A \right| = \left| B \right|\),从而\(A,B\)同时可逆或者不可逆

  6. \(\left( A \right) =\)\(\left( B \right),\left| {λE} - A \right| =\left| {λE} - B \right|\)\(A,B\)不一定相似

7 二次型

7.1\(\mathbf{n}\)个变量\(\mathbf{x}_{\mathbf{1}}\mathbf{,}\mathbf{x}_{\mathbf{2}}\mathbf{,\cdots,}\mathbf{x}_{\mathbf{n}}\)的二次齐次函数

\(f(x_{1},x_{2},\cdots,x_{n}) = \sum_{i = 1}^{n}{\sum_{j =1}^{n}{a_{{ij}}x_{i}y_{j}}}\),其中\(a_{{ij}} = a_{{ji}}(i,j =1,2,\cdots,n)\),称为\(n\)元二次型,简称二次型. 若令\(x = \ \begin{bmatrix}x_{1} \\ x_{1} \\ \vdots \\ x_{n} \\ \end{bmatrix},A = \begin{bmatrix} a_{11}& a_{12}& \cdots & a_{1n} \\ a_{21}& a_{22}& \cdots & a_{2n} \\ \cdots &\cdots &\cdots &\cdots \\ a_{n1}& a_{n2} & \cdots & a_{{nn}} \\\end{bmatrix}\),这二次型\(f\)可改写成矩阵向量形式\(f =x^{T}{Ax}\),其中\(A\)称为二次型矩阵。写得清楚些,我们可以看到:

\[x^{T} A x=\sum_{i=1}^{n} x_{i}(A x)_{i}=\sum_{i=1}^{n} x_{i}\left(\sum_{j=1}^{n} A_{i j} x_{j}\right)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j} \]

注意:

\[x^{T} A x=\left(x^{T} A x\right)^{T}=x^{T} A^{T} x=x^{T}\left(\frac{1}{2} A+\frac{1}{2} A^{T}\right) x \]

第一个等号的是因为是标量的转置与自身相等,而第二个等号是因为是我们平均两个本身相等的量。 由此,我们可以得出结论,只有\(A\)的对称部分有助于形成二次型。 出于这个原因,我们经常隐含地假设以二次型出现的矩阵是对称阵。
我们给出以下定义:

  • 对于所有非零向量\(x \in \mathbb{R}^n\)\(x^TAx>0\),对称阵\(A \in \mathbb{S}^n\)正定positive definite,PD)。这通常表示为\(A\succ0\)(或\(A>0\)),并且通常将所有正定矩阵的集合表示为\(\mathbb{S}_{++}^n\)

  • 对于所有向量\(x^TAx\geq 0\),对称矩阵\(A \in \mathbb{S}^n\)半正定(positive semidefinite ,PSD)。 这写为(或\(A \succeq 0\)\(A≥0\)),并且所有半正定矩阵的集合通常表示为\(\mathbb{S}_+^n\)

  • 同样,对称矩阵\(A \in \mathbb{S}^n\)负定negative definite,ND),如果对于所有非零\(x \in \mathbb{R}^n\),则\(x^TAx <0\)表示为\(A\prec0\)(或\(A <0\))。

  • 类似地,对称矩阵\(A \in \mathbb{S}^n\)半负定(negative semidefinite,NSD),如果对于所有\(x \in \mathbb{R}^n\),则\(x^TAx \leq 0\)表示为\(A\preceq 0\)(或\(A≤0\))。

  • 最后,对称矩阵\(A \in \mathbb{S}^n\)不定的,如果它既不是正半定也不是负半定,即,如果存在\(x_1,x_2 \in \mathbb{R}^n\),那么\(x_1^TAx_1>0\)\(x_2^TAx_2<0\)

很明显,如果\(A\)是正定的,那么\(−A\)是负定的,反之亦然。同样,如果\(A\)是半正定的,那么\(−A\)是是半负定的,反之亦然。如果果\(A\)是不定的,那么\(−A\)是也是不定的。

正定矩阵和负定矩阵的一个重要性质是它们总是满秩,因此是可逆的。为了了解这是为什么,假设某个矩阵\(A \in \mathbb{S}^n\)不是满秩。然后,假设\(A\)的第\(j\)列可以表示为其他\(n-1\)列的线性组合:

\[a_{j}=\sum_{i \neq j} x_{i} a_{i} \]

对于某些\(x_1,\cdots x_{j-1},x_{j + 1} ,\cdots ,x_n\in \mathbb{R}\)。设\(x_j = -1\),则:

\[Ax=\sum_{i \neq j} x_{i} a_{i}=0 \]

但这意味着对于某些非零向量\(x\)\(x^T Ax = 0\),因此\(A\)必须既不是正定也不是负定。如果\(A\)是正定或负定,则必须是满秩。
最后,有一种类型的正定矩阵经常出现,因此值得特别提及。 给定矩阵\(A \in \mathbb{R}^{m \times n}\)(不一定是对称或偶数平方),矩阵\(G = A^T A\)(有时称为Gram矩阵)总是半正定的。 此外,如果\(m\geq n\)(同时为了方便起见,我们假设\(A\)是满秩),则\(G = A^T A\)是正定的。

7.2 惯性定理,二次型的标准形和规范形

(1) 惯性定理

对于任一二次型,不论选取怎样的合同变换使它化为仅含平方项的标准型,其正负惯性指数与所选变换无关,这就是所谓的惯性定理。

(2) 标准形

二次型\(f = \left( x_{1},x_{2},\cdots,x_{n} \right) =x^{T}{Ax}\)经过合同变换\(x = {Cy}\)化为\(f = x^{T}{Ax} =y^{T}C^{T}{AC}\)

\(y = \sum_{i = 1}^{r}{d_{i}y_{i}^{2}}\)称为 \(f(r \leq n)\)的标准形。在一般的数域内,二次型的标准形不是唯一的,与所作的合同变换有关,但系数不为零的平方项的个数由\(r(A)\)唯一确定。

(3) 规范形

任一实二次型\(f\)都可经过合同变换化为规范形\(f = z_{1}^{2} + z_{2}^{2} + \cdots z_{p}^{2} - z_{p + 1}^{2} - \cdots -z_{r}^{2}\),其中\(r\)\(A\)的秩,\(p\)为正惯性指数,\(r -p\)为负惯性指数,且规范型唯一。

7.3 用正交变换和配方法化二次型为标准形,二次型及其矩阵的正定性

\(A\)正定\(\Rightarrow {kA}(k > 0),A^{T},A^{- 1},A^{*}\)正定;\(|A| >0\),\(A\)可逆;\(a_{{ii}} > 0\),且\(|A_{{ii}}| > 0\)

\(A\)\(B\)正定\(\Rightarrow A +B\)正定,但\({AB}\)\({BA}\)不一定正定

\(A\)正定\(\Leftrightarrow f(x) = x^{T}{Ax} > 0,\forall x \neq 0\)

\(\Leftrightarrow A\)的各阶顺序主子式全大于零

\(\Leftrightarrow A\)的所有特征值大于零

\(\Leftrightarrow A\)的正惯性指数为\(n\)

\(\Leftrightarrow\)存在可逆阵\(P\)使\(A = P^{T}P\)

\(\Leftrightarrow\)存在正交矩阵\(Q\),使\(Q^{T}{AQ} = Q^{- 1}{AQ} =\begin{pmatrix} \lambda_{1} & & \\ \begin{matrix} & \\ & \\ \end{matrix} &\ddots & \\ & & \lambda_{n} \\ \end{pmatrix},\)

其中\(\lambda_{i} > 0,i = 1,2,\cdots,n.\)正定\(\Rightarrow {kA}(k >0),A^{T},A^{- 1},A^{*}\)正定; \(|A| > 0,A\)可逆;\(a_{{ii}} >0\),且\(|A_{{ii}}| > 0\)

参考
线性代数 同济大学 第6版
线性代数辅导讲义 李永乐
CS229 - LinearAlgebra
Linear Algebra with Application 第9版

posted @ 2021-12-23 11:14  Christopher·阳  阅读(260)  评论(0编辑  收藏  举报