矩阵论补充知识点

知识点1： 当$\boldsymbol A$和$\boldsymbol B$都是$n$阶方阵时，$\boldsymbol{AB}$行列式的计算满足：

\[\left| \boldsymbol{AB} \right| = \left| \boldsymbol{A} \right| \left| \boldsymbol{B} \right| = \left| \boldsymbol{B} \right| \left| \boldsymbol{A} \right|= \left| \boldsymbol{BA} \right| \]

🐹 推广：三个矩阵都是方阵的时候，三个矩阵相乘的行列式等于各个矩阵的行列式相乘。

参考1.1：根据矩阵相乘的行列式等于分别行列式的乘积，这样写对吗？ - 知乎

知识点2： 分块矩阵的行列式：

① 若$\boldsymbol A$和$\boldsymbol D$是方阵：

\[\left|\begin{array}{cc} \boldsymbol A & \boldsymbol O \\ \boldsymbol O & \boldsymbol D \end{array}\right| = \left|\begin{array}{cc} \boldsymbol A & \boldsymbol * \\ \boldsymbol O & \boldsymbol D \end{array}\right| = \left|\begin{array}{cc} \boldsymbol A & \boldsymbol O \\ \boldsymbol * & \boldsymbol D \end{array}\right| = \left| \boldsymbol{A} \right| \left| \boldsymbol{D} \right| \]

参考2.1：分块矩阵行列式公式 - 趣趣的文章 - 知乎
参考2.2：分块矩阵行列式的性质证明 - CSDN
参考2.3：分块矩阵计算行列式三板斧 - CSDN

知识点3： 分块矩阵($\boldsymbol A$、$\boldsymbol B$、$\boldsymbol C$和$\boldsymbol D$均是方阵)求逆：

① 准对角矩阵

\[\left[\begin{array}{cc} \boldsymbol A & \boldsymbol O \\ \boldsymbol O & \boldsymbol D \end{array}\right]^{-1} = \left[\begin{array}{cc} \boldsymbol A^{-1} & \boldsymbol O \\ \boldsymbol O & \boldsymbol D^{-1} \end{array}\right] \qquad \qquad \qquad \left[\begin{array}{cc} \boldsymbol O & \boldsymbol B \\ \boldsymbol C & \boldsymbol O \end{array}\right]^{-1} = \left[\begin{array}{cc} \boldsymbol O & \boldsymbol C^{-1} \\ \boldsymbol B^{-1} & \boldsymbol O \end{array}\right] \]

② 分块上三角矩阵/分块下三角

\[\left[\begin{array}{cc} \boldsymbol A & \boldsymbol B \\ \boldsymbol O & \boldsymbol D \end{array}\right]^{-1} = \left[\begin{array}{cc} \boldsymbol A^{-1} & -\boldsymbol{A}^{-1}\boldsymbol{B}\boldsymbol{D}^{-1} \\ \boldsymbol O & \boldsymbol D^{-1} \end{array}\right] \qquad \qquad \left[\begin{array}{cc} \boldsymbol A & \boldsymbol O \\ \boldsymbol C & \boldsymbol D \end{array}\right]^{-1} = \left[\begin{array}{cc} \boldsymbol A^{-1} & \boldsymbol O \\ \boldsymbol -\boldsymbol{D}^{-1}\boldsymbol{C}\boldsymbol{A}^{-1} & \boldsymbol D^{-1} \end{array}\right] \]

参考3.1：分块矩阵怎么求逆？ - 知乎

知识点4： 方阵$\boldsymbol A$的多项式对应的特征值：

① 若$\lambda$是$\boldsymbol A$的特征值，如果$\boldsymbol A$可逆．则$\dfrac{1}{\lambda}$是$\boldsymbol A^{-1}$的特征值。

② 若$\lambda$是$\boldsymbol A$的特征值，$f(x)$是一个多项式，则$f(\lambda)$是$f(\boldsymbol A)$的特征值。

参考4.1：第七课线性代数 - 第 5 章特征值与特征向量

知识点5： 代数重数与几何重数的理解

\[\boldsymbol{几何重数} = \dim \left\{ \boldsymbol v \in \boldsymbol V^n \mid \left( \lambda \boldsymbol I - \boldsymbol T \right) \boldsymbol v = \boldsymbol 0 \right\} \]

\[\boldsymbol{代数重数} = \dim \left\{ \boldsymbol v \in \boldsymbol V^n \mid \exists k \in \mathbb{N}(\mathbb{N}是自然数集), 使得 \left( \lambda \boldsymbol I - \boldsymbol T \right)^k \boldsymbol v = \boldsymbol 0 \right\} \]

（PS：我暂时认为上面的说法是正确的，想要深入研究并验证上述说法，可能需要彻底把下面的知识点6-Jordan标准型搞明白。）

从上面的几何和代数重数的计算可知，几何重数和代数重数其计算的公式就不一样，只不过是几何重数(一个特征值对应的特征空间)一定是包含在代数重数对应的特征空间中(因为代数重数中$k$可取$k = 1, 2, 3, \cdots $)，并且可以得到结论：代数重数 $\geq$ 几何重数。

或者我可以以一种不正确的表述方法描述我的理解：

\[\boldsymbol{几何重数} \Rightarrow \boldsymbol{代数重数} \qquad \qquad \boldsymbol{几何重数} \nLeftarrow \boldsymbol{代数重数} \]

也即：几何重数是代数重数的充分不必要条件，代数重数是几何重数的必要不充分条件。

参考5.1：如何理解几何重数和代数重数？ - 知乎
参考5.2：为什么几何重数小于等于代数重数？当几何重数小于代数重数时，代数重数究竟有何意义？ - 2422的回答 - 知乎
参考5.3：什么情况下特征值的几何重数小于代数重数？ - 逸风晴的回答 - 知乎
参考5.4：矩阵特征值与矩阵本身的关系是什么？ - 三川啦啦啦的回答 - 知乎

知识点6： Jordan标准型的理解：

（😥 PS：Jordan标准型整体知识十分复杂，暂时无法整理出概述本质的简要表述，因此这里先给出如下8个参考链接，日后如果有时间进行详细学习之后，再做回来补充，或者直接另写一个博客文章链接过去。）

参考6.1：【线性代数】包看包会的若当标准形证明(1)-引言 - bilibili
参考6.2：线性变换的Jordan标准形 - 高铭骏 - 个人博客
参考6.3：#9 Jordan标准型的几何构造、几何意义和构造方法 - 常俊基的文章 - 知乎
参考6.4：为什么要引入“若尔当标准型”？ - 知乎
参考6.5：Jordan标准形的本质是什么？ - 知乎
参考6.6：几何重数小于代数重数的原因分析 - 1313的文章 - 知乎
参考6.7：Jordan标准型的行列式计算方法 - 刻苦用功的大白 - bilibili
参考6.8：Jordan标准型的初等变换计算方法 - DX390609 - bilibili

知识点7： 矩阵二次型：

矩阵的二次型是指一个关于向量$\boldsymbol x \in \mathbb{R}^n$的二次多项式，可以表示为：

\[q(\boldsymbol x) = \boldsymbol x^{\mathrm T} \boldsymbol A \boldsymbol x = \sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j \]

其中$\boldsymbol A$是$n\times n$的实对称矩阵，$\boldsymbol x = (x_1,x_2,\dots,x_n)^{\mathrm T}$是$n$维列向量。$a_{ij}$是矩阵$\boldsymbol A$的元素。矩阵$\boldsymbol A$是二次型的系数矩阵。

💠 矩阵二次型在数学和工程领域有许多应用。以下是其中的一些：
① 物理学：矩阵二次型可用于描述力学系统和电磁场的动态性质，例如能量函数、势能函数等可以表示为二次型形式，而矩阵二次型的特征值和特征向量也在物理学中有很多应用。
② 统计学：矩阵二次型可用于多元统计分析中的方差分析、协方差矩阵、线性判别分析和主成分分析等。
③ 优化问题：矩阵二次型可用于优化问题的求解，例如线性规划、二次规划、整数规划和非线性规划等。
④ 信号处理：矩阵二次型可用于信号处理领域的自适应滤波和卷积运算等。
⑤ 机器学习：矩阵二次型在机器学习领域中被广泛应用，例如支持向量机（SVM）就是利用二次型来构造分类器的，而通过对二次型的特征分解可以得到数据的主成分，进而对数据进行降维处理。

🌂 正定二次型：

正定二次型是指二次型函数的取值恒为正数，即对于二次型函数 $Q(\boldsymbol x) = \boldsymbol x^\mathrm{T} \boldsymbol A \boldsymbol x$，对于任意的非零向量$\boldsymbol x \in \mathbb{R}^n$，都有$Q(\boldsymbol x) > 0$成立的情况。其中$\boldsymbol A$是$n\times n$的实对称正定矩阵。

👂 研究正定二次型的意义在于它在数学和应用中具有广泛的应用。以下是一些重要的应用：
① 优化问题：正定二次型在优化问题中发挥着重要作用。例如，在约束为线性的最优化问题中，如果目标函数是正定二次型，那么该问题的最优解可以通过求解线性方程组来得到。
② 物理学：正定二次型在物理学中具有广泛应用。例如，在势能函数中，正定二次型可以表示系统的稳定性。
③ 统计学：正定二次型在统计学中有着广泛应用，特别是在多元正态分布中。正定二次型可以用来描述协方差矩阵的特性。
④ 机器学习：在机器学习中，正定二次型被广泛应用于支持向量机、正则化等领域。例如，在支持向量机中，正定二次型可以用来定义核函数，进而将高维数据映射到低维空间。

🎁 正定二次型在几何上有以下理解：
一个$n$维向量$\boldsymbol x$，它在二次型$Q(\boldsymbol{x})$作用下得到的值$Q(\boldsymbol{x})$可被视为向量$\boldsymbol{x}$的长度的平方，即$Q(\boldsymbol{x})=|\boldsymbol{x}|^2$，其中$|\cdot|$表示向量的模长。

如果二次型$Q(\boldsymbol{x})$是正定的，那么它在$\boldsymbol{x}$取遍所有的非零向量时所得到的值都大于零，即$Q(\boldsymbol{x})>0$。这意味着对于所有的非零向量$\boldsymbol{x}$，它在$Q(\boldsymbol{x})$作用下的结果都是正数，也就是说，向量$\boldsymbol{x}$的长度的平方都大于零，即$|\boldsymbol{x}|^2>0$，即向量$\boldsymbol{x}$的长度都大于零。因此，正定二次型可以被视为一种将向量长度映射到正实数上的函数，它在几何上对应着一个内积，即$Q(\boldsymbol{x})=\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x}$，其中$\boldsymbol{A}$是一个对称正定矩阵，$\boldsymbol{x}^T$表示向量$\boldsymbol{x}$的转置。

因此，正定二次型在几何上的意义就是它定义了一个向量空间上的内积，它可以被用来描述向量的长度、角度、投影等几何性质，以及向量之间的正交性等性质。在实际应用中，正定二次型经常被用来表示优化问题的目标函数，因为它具有良好的数学性质，例如可以使用梯度下降等优化算法来求解极小值。

在几何上，正定二次型可以理解为一个椭圆或者一个超曲面，在每个点的函数值都是正数。具体来说，对于一个$n$元正定二次型$Q(x_1,x_2,\dots,x_n)=\sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_ix_j$，可以将它写成向量形式，即$Q(\boldsymbol{x})=\boldsymbol{x}^T A\boldsymbol{x}$，其中$\boldsymbol{x}$是一个$n$维列向量，$A$是一个$n\times n$的对称矩阵，$A=(a_{ij})$。

因为$A$是对称矩阵，所以它可以通过正交对角化变成一个对角矩阵$D$，即$A=P^TDP$，其中$P$是一个正交矩阵，即$P^TP=PP^T=I$，$D$是一个对角矩阵，对角线上的元素为$A$的特征值。因此，原来的二次型可以写成：

Q(x)=x T Ax=xT PT DPx=(Px)T D(Px)

令$\boldsymbol{y}=P\boldsymbol{x}$，则原来的二次型可以写成$\boldsymbol{y}^T D\boldsymbol{y}$的形式，其中$\boldsymbol{y}$的每个分量是$\boldsymbol{x}$在正交基$P$下的坐标，$D$是一个对角矩阵，它的对角线上的元素是原二次型的特征值。因为原来的二次型是正定的，所以$D$的每个特征值都大于零，因此$\boldsymbol{y}^T D\boldsymbol{y}$在每个点的函数值都是正数。

从几何角度来看，$\boldsymbol{y}^T D\boldsymbol{y}$对应的是一个椭圆或者一个超曲面，而且在每个点的函数值都是正数。这个椭圆或超曲面的形状和大小与矩阵$A$的特征值有关。具体地，如果$A$的所有特征值都很大，则对应的椭圆或超曲面就很扁，而且长轴和短轴的比例比较大；如果$A$的某些特征值很小，那么对应的椭圆或超曲面就很圆。这种几何意义有助于理解正定二次型的性质，以及在优化问题中的应用。

参考链接7.1：二次型的意义是什么？有什么应用？ - 知乎
参考链接7.2：记忆常用公式 - 博客侦探 - 博客园
参考链接7.3：深度科普度规与时空(上)：从二次型的几何直观说起 - PeiLingX的文章 - 知乎
参考链接7.4：二次型和特征值 - WHL的文章 - 知乎
参考链接7.5：线性代数-6.二次型 - 钱辰的文章 - 知乎

知识点8： 正交矩阵/对称矩阵/酉矩阵：

空间	实空间$\mathbb{R}$		复(酉)空间$\mathbb{C}$
变换	正交变换	$(\boldsymbol x, \boldsymbol x) = (\mathrm{T} \boldsymbol x, \mathrm{T} \boldsymbol x) \Longleftrightarrow (\boldsymbol x, \boldsymbol y) = (\mathrm{T} \boldsymbol x, \mathrm{T} \boldsymbol y)$	酉变换	$(\boldsymbol x, \boldsymbol x) = (\mathrm{T} \boldsymbol x, \mathrm{T} \boldsymbol x)$
变换	对称变换	$(\mathrm{T} \boldsymbol x, \boldsymbol y) = (\boldsymbol x, \mathrm{T} \boldsymbol y)$	酉对称变换(Hermit变换)	$(\mathrm{T} \boldsymbol x, \boldsymbol y) = (\boldsymbol x, \mathrm{T} \boldsymbol y)$
矩阵	正交矩阵	$\boldsymbol Q^{\mathrm{T}} \boldsymbol Q = \boldsymbol I \Longleftrightarrow \boldsymbol Q^{\mathrm{T}} = \boldsymbol Q^{-1}$	酉矩阵	$\boldsymbol A^{\mathrm{H}} \boldsymbol A = \boldsymbol A \boldsymbol A^{\mathrm{H}} = \boldsymbol I$
	实对称矩阵	$\boldsymbol A^{\mathrm{T}} = \boldsymbol A$	厄米特(Hermite)矩阵	$\boldsymbol A^{\mathrm{H}} = \boldsymbol A$
			正规矩阵	$\boldsymbol A^{\mathrm{H}} \boldsymbol A = \boldsymbol A \boldsymbol A^{\mathrm{H}}$

正交变换不会改变向量间的正交性，如果$\boldsymbol u$和$\boldsymbol v$正交，则$\mathrm{T}(\boldsymbol u)$和$\mathrm{T}(\boldsymbol v)$仍然是正交的。

知识点9： 欧氏空间与酉空间一些结论小结：

⓪ 过渡矩阵(我个人又称为基变换矩阵)：旧基到新基的转换矩阵；度量矩阵：欧式空间的一组基之间的内积作为元素构成的矩阵。

① 欧式空间两个不同基对应的度量矩阵$\boldsymbol A$和$\boldsymbol B$是合同的，即$\boldsymbol A ≃ \boldsymbol B$；

② 一个基为标准正交基的充要条件是它的度量矩阵为单位矩阵；

③ 一个矩阵$\boldsymbol Q$为正交矩阵的充要条件为它的列向量是两两相互正交的单位向量。

④ 正交矩阵非奇异、其逆矩阵仍是正交矩阵、两个正交阵相乘仍是正交阵；

⑤ 欧氏空间一个变换$\mathrm{T}$为正交变换的充要条件是$\mathrm{T}$对应于标准正交基下的矩阵是正交矩阵；

⑥ 正交变换在标准正交基下的矩阵才是正交矩阵，在别的基下不一定是正交矩阵；

⑦ 两个标准正交基之间的过渡矩阵是正交矩阵。

⑧ 欧式空间一个变换$\mathrm{T}$为实对称变换的充要条件是$\mathrm{T}$对于标准正交基的矩阵是实对称矩阵；

⑨ 实对称矩阵的特征值均为实数、实对称矩阵不同特征值对应的特征向量正交；

⑩ 酉空间的正交变换被称为“酉变换”，酉变换在酉空间的标准正交基下的矩阵$\boldsymbol A$是酉矩阵，即满足$\boldsymbol A^{\mathrm H} \boldsymbol A = \boldsymbol{AA}^{\mathrm H} = \boldsymbol I$；

⑪ 酉矩阵的逆矩阵是酉矩阵、两个酉矩阵乘积是酉矩阵；

⑫ 酉空间的对称变换被称为“Hermite变换/酉对称变换”，Hermite变换在酉空间的标准正交基下的矩阵$\boldsymbol A$是Hermite矩阵，即满足$\boldsymbol A^{\mathrm H} = \boldsymbol A$；

⑬ Hermite矩阵的特征值均为实数、Hermite矩阵不同特征值对应的特征向量正交；

⑭ Schur定理：任意$n$阶方阵一定(酉)相似于上/下三角矩阵

欧式空间中：设$\boldsymbol A \in \mathbb{R}^{n \times n}$的特征值为$\lambda_1, \lambda_2, \cdots, \lambda_n$，且$\lambda_i \in \mathbb{R}$，则一定存在正交矩阵$\boldsymbol Q$使得：

\[\boldsymbol Q^{-1} \boldsymbol A \boldsymbol Q = \boldsymbol Q^{\mathrm T} \boldsymbol A \boldsymbol Q = \left[ \begin{array}{cccc} \lambda_1 & * & \cdots & * \\ &\lambda_2 & \cdots & * \\ & & \ddots & \vdots \\ & & & \lambda_n \end{array}\right] \]

酉空间中：设$\boldsymbol A \in \mathbb{C}^{n \times n}$的特征值为$\lambda_1, \lambda_2, \cdots, \lambda_n$，则一定存在酉矩阵$\boldsymbol P$使得：

\[\boldsymbol P^{-1} \boldsymbol A \boldsymbol P = \boldsymbol P^{\mathrm H} \boldsymbol A \boldsymbol P = \left[ \begin{array}{cccc} \lambda_1 & * & \cdots & * \\ &\lambda_2 & \cdots & * \\ & & \ddots & \vdots \\ & & & \lambda_n \end{array}\right] \]

⑮ $n$阶方阵(酉)相似于对角矩阵的充要条件：$\boldsymbol A$为正规矩阵，即$\boldsymbol A^{\mathrm H} \boldsymbol A = \boldsymbol{AA}^{\mathrm H}$

设$\boldsymbol A \in \mathbb R^{n \times n}$，且$\boldsymbol A$的特征值都是实数，则$\boldsymbol A$正交相似于对角矩阵的充要条件是$\boldsymbol A$为正规矩阵(在实数域就是实对称矩阵$\boldsymbol A$，$\boldsymbol A$有n个线性无关的特征向量)；
设$\boldsymbol A \in \mathbb C^{n \times n}$，则$\boldsymbol A$相似于对角矩阵的充要条件是$\boldsymbol A$为正规矩阵。

⑯ 实对称矩阵一定能正交相似于对角矩阵。

⑰ $\mathrm T$为欧式空间的对称变换，则一定能找到一组基使$\mathrm T$在该基下的矩阵为对角矩阵。

⑱ 复对称矩阵与实对称矩阵的显著区别之一是不一定能对角化。

⑲ 任何$n$阶方阵都可以相似于一个Jordan标准形矩阵。

⑳ 实矩阵的复特征值一定是成对共轭出现的。

知识点10： 常见向量范数和矩阵范数

	向量范数	矩阵范数	关系	关系
0-范数	$\\| \boldsymbol x \\|_0 = 非零元素个数$
1-范数	$\\| \boldsymbol x \\|_1 = \sum\limits_i \|x_i\|$	$\\| \boldsymbol A \\|_1 = \max\limits_{j} \sum\limits_{i=1}^{m} \|a_{ij}\|$	从属范数；相容；	从属范数的定义：$\\| \boldsymbol A \\| = \max\limits_{\\| \boldsymbol x \\|_V = 1} \\| \boldsymbol{Ax} \\|_V$ 此时$\\| \cdot \\|$与向量范数$\\| \cdot \\|_V$相容。由于是从属范数，因此单位阵$\boldsymbol I$的这三种范数均等于1： $\\| \boldsymbol I \\|_1 = \\| \boldsymbol I \\|_2 = \\| \boldsymbol I \\|_{\infty} = 1$
2-范数	$\\| \boldsymbol x \\|_2 = \sqrt{\sum\limits_i \|x_i\|^2}$	$\\| \boldsymbol A \\|_2 = \sqrt{\lambda_{\max}}$，$\lambda_{\max}$是矩阵$\boldsymbol A^{\mathrm H} \boldsymbol A$的最大特征值
$\infty$-范数	$\\| \boldsymbol x \\|_{\infty} = \max \|x_i\|$	$\\| \boldsymbol A \\|_{\infty} = \max\limits_{i} \sum\limits_{j=1}^{n} \|a_{ij}\|$
Lp范数	$\\| \boldsymbol x \\|_p = \left(\sum\limits_i \|x_i\|^p \right)^{\frac{1}{p}}$
$m_1$范数		$\\| \boldsymbol A \\|_{m_1} = \sum\limits_{i=1}^{m} \sum\limits_{j=1}^{n} \|a_{ij}\|$
$m_2$范数 (F-范数)		$\\| \boldsymbol A \\|_{m_2} = \\| \boldsymbol A \\|_F = \left(\sum\limits_{i=1}^{m} \sum\limits_{j=1}^{n} \|a_{ij}\|^2 \right)^{\frac{1}{2}} = \left(\mathrm{tr}(\boldsymbol A^{\mathrm{H}} \boldsymbol A) \right)^{\frac{1}{2}}$
$m_{\infty}$范数		$\\| \boldsymbol A \\|_{m_\infty} = n \cdot \max\limits_{i, j} \|a_{ij}\|$

知识点11： 级数的收敛性

🍺 正项级数及其判敛法（重点部分）

在级数理论中，正项级数是非常重要的一种，对一般级数的研究有时可以通过对正项级数的研究来获得结果，就像非负函数广义积分和一般广义积分的关系一样。
所谓正项级数是这样一类级数：级数的每一项都是非负的。如果级数的各项都是负数，则它乘以-1后就得到一个正项级数，它们具有相同的敛散性。
正项级数收敛性的判别方法主要包括：利用部分和数列判别法、比较原则、比式判别法、根式判别法、积分判别法以及拉贝尔判别法等。
设$\sum\limits_{i=1}^\infty a_n$与$\sum\limits_{i=1}^\infty b_n$为正项级数，其收敛性判断如下：

比较审敛法
- 基本形式
  - 若$a_n \leq b_n$且$\sum\limits_{i=1}^\infty b_n$收敛，则$\sum\limits_{i=1}^\infty a_n$也收敛。
  - 若$a_n \geq b_n$且$\sum\limits_{i=1}^\infty b_n$发散，则$\sum\limits_{i=1}^\infty a_n$也发散。
- 极限形式
  - 设$\lim\limits_{n \to \infty} \dfrac{a_n}{b_n} = l (0<l<+\infty)$，则级数$\sum\limits_{i=1}^\infty a_n$与$\sum\limits_{i=1}^\infty b_n$的敛散性相同。
- 推论
  - 设$\lim\limits_{n \to \infty} \dfrac{a_n}{b_n} = 0$，且$\sum\limits_{i=1}^\infty b_n$收敛，则$\sum\limits_{i=1}^\infty a_n$也收敛。
  - 设$\lim\limits_{n \to \infty} \dfrac{a_n}{b_n} = +\infty$，且$\sum\limits_{i=1}^\infty b_n$发散，则$\sum\limits_{i=1}^\infty a_n$也发散。
比值审敛法
- 设$\lim\limits_{n \to \infty} \dfrac{a_{n+1}}{a_n} = \rho$
  - 若$\rho < 1$，级数$\sum\limits_{i=1}^\infty a_n$收敛；
  - 若$\rho > 1$，级数$\sum\limits_{i=1}^\infty a_n$发散；
  - 若$\rho = 1$，级数$\sum\limits_{i=1}^\infty a_n$可能收敛、可能发散，需另外判断。
根值审敛法
- 设$\lim\limits_{n \to \infty} \sqrt[n]{a_n} = \rho$
  - 若$\rho < 1$，级数$\sum\limits_{i=1}^\infty a_n$收敛；
  - 若$\rho > 1$，级数$\sum\limits_{i=1}^\infty a_n$发散；
  - 若$\rho = 1$，级数$\sum\limits_{i=1}^\infty a_n$可能收敛、可能发散，需另外判断。

🎨 幂级数的收敛半径和收敛域
① 函数项级数
定义：$\sum\limits_{n=1}^{\infty} u_n(x) = u_1(x) + u_2(x) + \cdots + u_n(x) + \cdots$
收敛点$x_s$：使函数项级数$\sum\limits_{n=1}^{\infty} u_n(x_s)$收敛的点。
收敛点$x_f$：使函数项级数$\sum\limits_{n=1}^{\infty} u_n(x_f)$发散的点。
收敛域：$D = \{x_s \mid \sum\limits_{n=1}^{\infty} u_n(x_s)收敛 \}$，即所有收敛点的集合。

② 幂级数及其收敛性
定义：$\sum\limits_{n=0}^{\infty} a_n x^n = a_0 + a_1 x + \cdots + a_n x^n + \cdots$。
收敛半径：若$\lim\limits_{n \to \infty} \dfrac{|a_{n+1}|}{|a_n|} = \rho$，则有：
1° 当$0<\rho<+\infty$时，收敛半径为$R = \dfrac{1}{\rho}$；
2° 当$\rho = 0$时，收敛半径为$R = +\infty$；
3° 当$\rho = +\infty$时，收敛半径为$R = 0$。

在实际应用中，常常用$R = \lim\limits_{n \to \infty} \dfrac{|a_n|}{|a_{n+1}|}$直接计算幂级数$\sum\limits_{n=0}^{\infty}a_n x^n$的收敛半径。另一方面，利用正项级数的根值判别法，收敛半径$\rho$也可以用极限$\lim\limits_{n \to \infty} \sqrt[n]{|a_n|}$来计算

🍭 绝对收敛级数与条件收敛级数：

绝对收敛和条件收敛的本质区别在于：是否满足“黎曼重排定理”。

黎曼重排定理：
- 如果一个实数项无穷级数若是条件收敛的，它的项在重新排列之后，重新排列后的级数收敛的值可能会收敛到任何一个给定的值，甚至发散；
- 而对于一个绝对收敛级数，它的项在重新排列之后，收敛性不变，并且级数和不变。

此定理说明，我们不能随意排列一个级数，并且在级数求和时候尽量不能随机排列更不能轻易加括号(一个例子就是$(-1)^n$这个不收敛级数，如果在计算该级数和时加括号，则可能会导致得到一个收敛级数和)。

收敛半径。。。。。。。。。

转载11.1：绝对收敛级数与条件收敛级数有何本质区别？ - 达瓦里希也喝脉动的回答 - 知乎
 https://blog.csdn.net/HGGshiwo/article/details/105209452
数分笔记——6种数项级数的收敛性证明的基本方法 - Fiddie的文章 - 知乎
 高等数学十：（1）无穷级数 - Lawliet的文章 - 知乎
 高等数学十：（4）函数项级数的一致收敛 - Lawliet的文章 - 知乎

知识点12： 矩阵相关多项式的定义：

① 方阵$\boldsymbol A$的多项式$f(\boldsymbol A)$：

\[f(t) = \sum_{i=0}^n a_i t^i \quad \Longleftrightarrow \quad f(\boldsymbol A) = a_0 \boldsymbol I + a_1 \boldsymbol A + \cdots + a_n \boldsymbol A^n = \sum_{i=0}^{n} a_i \boldsymbol A^i \]

② 方阵$\boldsymbol A$的特征矩阵：

\[\boldsymbol A(\lambda) = \lambda \boldsymbol I - \boldsymbol A \]

③ 方阵$\boldsymbol A$的特征多项式$\varphi (\lambda)$：

\[\varphi (\lambda) = \det(\lambda \boldsymbol I - \boldsymbol A) = \left| \lambda \boldsymbol I - \boldsymbol A \right| \]

④ 方阵$\boldsymbol A$的特征方程：特征多项式$\varphi (\lambda) = 0$

\[\varphi (\lambda) = \det(\lambda \boldsymbol I - \boldsymbol A) = \left| \lambda \boldsymbol I - \boldsymbol A \right| = 0 \]

⑤ 方阵$\boldsymbol A$的零化多项式$\psi(\lambda)$：
若存在一个多项式：

\[\psi(\lambda) = a_0 + a_1 \lambda + \cdots + a_m \lambda^m \]

使得

\[\psi(\boldsymbol A) = a_0 \boldsymbol I + a_1 \boldsymbol A + \cdots + a_m \boldsymbol A^m =\boldsymbol O \]

则$\psi(\lambda)$就是$\boldsymbol A$的一个零化多项式。

📢 注意：凯莱-哈密顿(Cayley-Hamilton)定理：可以利用多项式长除法用于方阵幂次的计算$\boldsymbol A^n = ?$，其中$n$是一个很大的数。

方阵$\boldsymbol A$特征多项式$\varphi(\lambda)$是一个零化多项式，因为$\varphi(\boldsymbol A) = \boldsymbol O$。

⑥ 方阵$\boldsymbol A$的最小多项式$m(\lambda)$：
对于一个矩阵$\boldsymbol A$，称它首项系数为1的次数最低的零化多项式是$\boldsymbol A$的最小多项式。(关于最小多项式的较为详细知识请看知识点13)。

参考12.1：多项式矩阵 - 维基百科
参考12.2：矩阵多项式 - 维基百科
参考12.3：矩阵多项式与多项式矩阵 - 豆丁文档
参考12.4：零化多项式 - 中文数学Wiki
参考12.5：【矩阵论笔记】零化多项式 - CSDN
参考12.6：最小多项式 - 中文数学Wiki

知识点13： 方阵$\boldsymbol A$的最小多项式

对于一个矩阵$\boldsymbol A$，我们称它首项系数为1的次数最低的零化多项式是$\boldsymbol A$的最小多项式，记作$m(\lambda)$，显然有$m(\boldsymbol A) = \boldsymbol O$。

🚩 $m(\lambda)$的几个性质：
① 最小多项式是零化多项式的因子；
② 相似矩阵具有相同的最小多项式，但是最小多项式相同的矩阵不一定相似，这一点和特征多项式是一样的，特征多项式相同的矩阵也不一定相似；
③ 最小多项式保留了特征根因式，即最小多项式整除特征多项式。

⭕ 最小多项式$m(\lambda)$的求法：
① 第一种方法：算出这个矩阵的Jordan标准型，设其特征值分别为$\lambda_1, \lambda_2, \cdots, \lambda_k$。如果Jordan标准型中以$\lambda_i$为对角元的Jordan块的最大阶数为$t_i$，那么这个矩阵的最小多项式为：

\[m(\lambda) = (\lambda - \lambda_1)^{t_1} \times (\lambda - \lambda_2)^{t_2} \times \cdots \times (\lambda - \lambda_k)^{t_k} \]

② 第二种方法：判断$\boldsymbol A$是否可以被$\boldsymbol I$线性表示，如果不能，判断$\boldsymbol A^2$是否可以被$\boldsymbol A$和$\boldsymbol I$线性表示，如果不能，判断$\boldsymbol A^3$是否可以被$\boldsymbol A^2$、$\boldsymbol A$、$\boldsymbol I$先行表示。以此类推，直到出现某个$k$，使得$\boldsymbol A^k$可以被$\boldsymbol A^{k-1}$、···、$\boldsymbol A$、$\boldsymbol I$线性表示，不妨设：

\[\boldsymbol A^k = a_{k-1} \boldsymbol A^{k-1} + \cdots + a_1 \boldsymbol A + a_0 \boldsymbol I \]

那么其最小多项式$m(\lambda)$为：

\[m(\lambda) = \lambda^k - a_{k-1} \lambda^{k-1} - \cdots - a_1 \lambda + a_0 \]

例如：如果$\boldsymbol A^2 = 2\boldsymbol A-\boldsymbol I$，那么A的最小多项式为$m(\lambda) = \lambda^2 - 2\lambda + 1$

③ 第三种方法：矩阵$\boldsymbol A$的最小多项式就是$\boldsymbol A$的特征矩阵的第$n$个不变因子$d_n(\lambda)$，这是求解一个矩阵的最小多项式的有效通法。

④ 第四种方法：矩阵的最小多项式为最后一个不变因子。由Smith标准型(不变因子)的定义，最后一个不变因子是所有初等因子的最小公倍式，而最小多项式是所有初等因子的最小公倍式，则最小多项式是最后一个不变因子。最小多项式最高次幂是一次，由前一个不变因子整除后一个不变因子，前面的所有不变因子是一次因式的乘积，即不变因子相乘得到的特征多项式都是一次因式的乘积 r级Jordan块的最小多项式是初等因子，所以在大范围内，Jordan标准型的最小多项式是所有初等因子的乘积。

参考13.1：最小多项式 - 中文数学Wiki
参考13.2：矩阵的最小多项式怎么求？ - Morant的回答 - 知乎
参考13.3：这个矩阵怎么求最小多项式？ - 悲伤的阿木木的回答 - 知乎
参考13.4：为什么矩阵的最小多项式为最后一个不变因子 - 百度知道
参考13.5：求极小多项式举例 - CSDN
参考13.6：「管理数学基础」1.5 矩阵理论：方阵的行列式因子、不变因子、初等因子：高等代数中给定一个矩阵求它的不变因子主要就两种方法：化成Smith标准型、求出行列式因子。

知识点14： 几种特殊子空间：

① 不变子空间：$\mathrm{T}$是$V^n$上一个线性变换，$V_1$是$V^n$的一个子空间，若$\boldsymbol x \in V_1$，有$\mathrm{T}\boldsymbol x \in V_1$，则$V_1$是线性变换$\mathrm T$的一个不变子空间。
不变子空间的一些性质：
a. 零空间和整个空间都是$\mathrm T$的不变子空间，即 $\mathrm T(\vec{0})=\vec{0}$ 和 $\mathrm T(V)=V$；
b. 交集和并集仍是$\mathrm T$的不变子空间。即如果$U_1, U_2$是$\mathrm T$的不变子空间，则$U_1 \cap U_2$和$U_1 \cup U_2$也是$\mathrm T$的不变子空间；
c. 如果$U$和$W$都是$\mathrm T$的不变子空间，则$U+W$也是$\mathrm T$的不变子空间；
d. 如果$U$是$\mathrm T$的不变子空间，则$\mathrm T(U)$也是$\mathrm T$的不变子空间。这条性质可以推广到$\mathrm T^n(U)$仍是$\mathrm T$的不变子空间；
e. 对于每个特征值 $\lambda$，其对应的特征子空间是 $T$ 的不变子空间。

② 特征子空间：$V^n$上一个线性变换$\mathrm{T}$的属于特征值$\lambda_i$的所有特征向量+加零向量构成的子空间，即：

\[V_{\lambda_i} = \left\{\boldsymbol x \mid \mathrm{T}\boldsymbol x = \lambda_i\boldsymbol x, \boldsymbol x \in V^n \right\} \]

特征子空间的一些性质：
a. 特征子空间一定是不变子空间，一个线性变换$\mathrm T$，其特征值$\lambda$对应的特征子空间是$\mathrm T$的不变子空间，即其中的向量经$\mathrm T$作用后仍在该子空间内。
b. 不同特征值对应的特征子空间是两两直和的。因为特征向量属于不同特征值对应的特征子空间之间线性无关，故它们的直和构成整个向量空间。
c. 如果一个线性变换$\mathrm T$是对称矩阵，那么其特征子空间是正交的。也就是说，属于不同特征值的特征向量是正交的。
d. 把特征子空间$V_{\lambda_i}$的维数也称作对应特征根$\lambda_i$的几何重数，若一个矩阵的几何重数等于代数重数，就称这个矩阵是非亏损的，反之称为亏损的。

参考14.1：不变子空间 - 中文数学Wiki
参考14.2：高等代数中的各种空间 - 柿子君的文章 - 知乎

知识点15： 线性方程组有解：

一个线性方程组仅有零解的充分必要条件是该线性方程组的系数矩阵的行向量(或列向量)线性无关，即矩阵的秩等于未知量的个数。

具体来说，设线性方程组为$\boldsymbol{Ax} = \boldsymbol b$，其中$\boldsymbol A$是一$m \times n$的矩阵，$\boldsymbol x$和$\boldsymbol b$是$n$维和$m$维列向量。则该线性方程组仅有零解的充要条件为$\text{rank}(\boldsymbol A) = n$，即$A$的列向量线性无关。

知识点16： 谱半径的理解

📜 请问矩阵的谱半径该如何理解，谱半径有没有几何意义?

矩阵的谱半径可以理解为矩阵的所有特征值的绝对值的最大值。具体地，设$\boldsymbol A$是一个$n\times n$的矩阵，它的特征值为$\lambda_1,\lambda_2,\cdots,\lambda_n$，则$\boldsymbol A$的谱半径定义为：

\[\rho(\boldsymbol A) = \max\limits_{i}|\lambda_i| \quad (i = 1, 2, \cdots, n) \]

从几何意义上来看，矩阵的谱半径可以描述线性变换的“最大拉伸率”。设 $\boldsymbol A$ 是一个 $n$ 维线性变换，如果对于所有向量 $x\in\mathbb{R}^n$，有 $|\boldsymbol{Ax}| \le K|\boldsymbol{x}|$，其中$K$是一个常数，则称$K$是$\boldsymbol A$的一个上界。而$\boldsymbol A$的谱半径$\rho(\boldsymbol A)$就是所有上界中最小的一个。也就是说，矩阵的谱半径描述了$\boldsymbol A$的最大拉伸率，即所有向量长度的最大变化率。

需要注意的是，矩阵的谱半径并不一定等于矩阵的模长的最大值。矩阵的模长定义为$|\boldsymbol A| = \max_{|\boldsymbol x|=1}|\boldsymbol{Ax}|$，它表示在所有长度为$1$的向量上，$\boldsymbol A$的最大拉伸率。而矩阵的谱半径是所有特征值的绝对值的最大值，因此它只和$\boldsymbol A$的特征值有关，而不是和$\boldsymbol A$的模长有关。

📚 矩阵谱半径有什么应用呢？

矩阵谱半径在控制理论、信号处理、网络分析、优化等领域都有广泛的应用。

① 在控制理论中，矩阵谱半径可以用于判断系统的稳定性。当矩阵的谱半径小于1时，系统是稳定的，否则是不稳定的。

② 在信号处理中，矩阵谱半径可以用于信号去噪。通常情况下，信号是由一个稳定的矩阵变换得到的，因此矩阵的谱半径可以用于判断信号的稳定性。如果信号的谱半径较小，可以通过对信号进行矩阵变换，使得信号的谱半径变小，从而实现信号去噪的目的。

③ 在网络分析中，矩阵谱半径可以用于衡量网络的中心性。一些重要的网络指标，如中心性和影响力等，可以通过矩阵谱半径来计算。

④ 在优化中，矩阵谱半径可以用于判断优化算法的收敛性。如果优化算法收敛，那么矩阵的谱半径应该小于1，否则算法不收敛。因此，可以根据矩阵谱半径的大小来选择合适的优化算法。

📀 谱半径的一些性质：

① 矩阵$\boldsymbol A$的2范数又可表示为谱半径的形式：

\[\| \boldsymbol A \|_2 = \sqrt{\lambda_{\max}}，\lambda_{\max}是矩阵\boldsymbol A^{\mathrm H} \boldsymbol A的最大特征值 \quad \Longleftrightarrow \quad \| \boldsymbol A \|_2 = \sqrt{\rho(\boldsymbol A^{\mathrm H}\boldsymbol A)} = \sqrt{\rho(\boldsymbol A \boldsymbol A^{\mathrm H})} \]

特别的，若$\boldsymbol A$是正规矩阵，则有$\| \boldsymbol A \|_2 = \rho(\boldsymbol A) = \max\limits_{i}|\lambda_i|$。

② 设$\boldsymbol A \in \mathbb C^{n \times n}$，则对$\mathbb C^{n \times n}$上的任意矩阵范数$\| \cdot \|$都有：

\[\rho(\boldsymbol A) \leq \| \boldsymbol A \| \]

并且$\rho(\boldsymbol A)$是$\boldsymbol A$的所有范数的下确界。

③ 若对$\mathbb C^{n \times n}$上的某一矩阵范数$\| \cdot \|_M$有$\| \boldsymbol A\|_M < 1 \Longleftrightarrow \rho(\boldsymbol A) < 1$，则$\boldsymbol{I-A}$就是可逆的。

④ 对于任意的$n$阶矩阵$\boldsymbol A$，其谱半径$\rho(\boldsymbol A)$不超过其所有元素的模的最大值，即$|\rho(A)| \leq |A|_{\infty}$。

⑤ 如果矩阵$\boldsymbol A$是幂零矩阵，即存在正整数$k$，使得$\boldsymbol A^k = \boldsymbol O$，那么$\rho(\boldsymbol A) = 0$。

⑥ 对于任意两个$n$阶矩阵$\boldsymbol A$和$\boldsymbol B$，有$\rho(\boldsymbol {AB}) \leq \rho(\boldsymbol A) \rho(\boldsymbol B)$。

⑦ 对于任意$n$阶方阵$\boldsymbol A$，其谱半径等于$\boldsymbol A$的转置矩阵$\boldsymbol A^{\mathrm T}$的谱半径，即$\rho(\boldsymbol A) = \rho(\boldsymbol A^{\mathrm T})$。

⑧ 如果$\boldsymbol A$是一个实对称矩阵，那么$\rho(\boldsymbol A)$等于$\boldsymbol A$的模最大的特征值的模，即$\rho(\boldsymbol A) = |\lambda_{\max}(\boldsymbol A)|$。

⑨ 对于任意$n$阶矩阵$\boldsymbol A$，都有$\rho(\boldsymbol A) \geq \frac{\sum_{i=1}^n|a_{i,i}|}{n}$，其中$a_{i,i}$是矩阵$\boldsymbol A$的第$i$个对角元素。

参考16.1：对范数、矩阵谱半径的通俗化理解 - CSDN
参考16.2：向量与矩阵的范数
参考16.3：「管理数学基础」1.7 矩阵理论：方阵特征值估计、圆盘定理、谱与谱半径

知识点17： 矩阵的常见分解：

LU分解

	具体内容	备注
定义及形式	对于n阶方阵$\boldsymbol A$，若存在n阶单位下三角矩阵$\boldsymbol L$和n阶上三角形矩阵$\boldsymbol U$，使得$\boldsymbol{A = LU}$，则称其为矩阵的LU分解，也称为Doolittle分解。	$\boldsymbol L$是单位下三角矩阵，$\boldsymbol U$为非奇异上三角矩阵；
计算方法	Gauss消元法
计算方法	待定系数法
存在性	矩阵$\boldsymbol A \in \mathbb{R}^{n×n}$存在的充要条件是$\boldsymbol A$的所有顺序主子式都非奇异(行列式非零)	矩阵不一定存在LU分解
唯一性	若矩阵存在LU分解，其分解不是唯一的(因为$\boldsymbol{A = LU} = \boldsymbol L \boldsymbol D^{-1} \boldsymbol{DU} = \hat{\boldsymbol L} \hat{\boldsymbol U}$，注意，考虑此种情况时，$\hat{\boldsymbol L}$和$\hat{\boldsymbol U}$均不是单位上/下三角，但若其中一个是单位上/下三角，则分解是唯一的)	但有如下定理：当且仅当$\boldsymbol A$的顺序主子式$\Delta_k \neq 0$时，$\boldsymbol A$可以唯一的分解为$\boldsymbol{A = LDU}$，其中$\boldsymbol L$和$\boldsymbol U$分别是单位上和单位下三角，$\boldsymbol D$是对角矩阵，$\boldsymbol D = \text{diag}(d_1, d_2, \cdots, d_n)$，其中$d_k = \dfrac{\Delta_k}{\Delta_{k-1}}$
应用	可用于求解线性方程组；也可以用于矩阵求逆；
其他说明	说明1：虽然定义是可逆方阵(非奇异矩阵)，但是LU分解不但可以应用于方阵也可应用于非方阵，LU分解不但可以用于非奇异矩阵，还可以用于奇异矩阵。	参考16.5
其他说明	说明2：条件更弱的LU分解定理(选主元LU分解) 在LU分解算法中，称$a^{(k−1)}_{kk}$为主元，若$a^{(k−1)}_{kk}=0$，则算法无法进行下去；此外若$\|a^{(k−1)}_{kk}\|$值非常小，则因为舍入误差导致结果误差非常大。可通过选主元来解决此问题。选主元需要引入置换矩阵。	选主元LU分解也不是一定存在的；详细内容参考16.1。

QR分解

	具体内容	备注
定义及形式	1、若实(复)非奇异矩阵$\boldsymbol A$能够化成正交(酉)矩阵$\boldsymbol Q$与实(复)非奇异上三角矩阵$\boldsymbol R$的乘积，即$\boldsymbol{A = QR}$； 2、设$\boldsymbol A$是$m \times n$实(复)矩阵，且其$n$个列线性无关(列满秩)，则$\boldsymbol A$可以分解为$\boldsymbol A_{m \times n} = \boldsymbol Q_{m \times n} \boldsymbol R_{n \times n}$； 3、奇异阵也可以通过Givens、Householder变换法化为$\boldsymbol{QR}$的形式，但是所化成的上三角矩阵是奇异的。	定义2中，其中$\boldsymbol Q$是实(复)矩阵，且满足$\boldsymbol Q^{\mathrm T} \boldsymbol Q = \boldsymbol I$或$\boldsymbol Q^{\mathrm H} \boldsymbol Q = \boldsymbol I$(说明$\boldsymbol Q$的列向量两两相互正交)，$\boldsymbol R$是$n$阶非奇异上三角矩阵。
计算方法	1、施密特(Schmidt)正交化方法
	2、Givens变换方法
	3、Householder变换方法
存在性	实际上任意矩阵都是可以进行QR分解的，但是我们一般考虑非奇异方阵和列满秩的矩阵求解QR分解。
唯一性	QR分解不唯一，但是对于$n$阶实(复)非奇异方阵，除去相差一个对角元素的模长全等于1的对角矩阵因子$\boldsymbol D$外不考虑，可认为QR分解唯一。	如果$\boldsymbol A$是一个列满秩矩阵，并且$\boldsymbol R$的主对角元都为正数时，QR分解的结果唯一。
唯一性	证明：设矩阵$\boldsymbol A$有两个QR分解：$\boldsymbol{A = QR = Q_1 R_1}$，则有：$\boldsymbol Q = \boldsymbol Q_1 \boldsymbol R_1 \boldsymbol R^{-1} = \boldsymbol Q_1 \boldsymbol D$，其中$\boldsymbol D = \boldsymbol R_1 \boldsymbol R^{-1}$仍是可逆上三角矩阵，并且容易证明$\boldsymbol D^{\mathrm H} \boldsymbol D = I$，因此$\boldsymbol D$为对角线元素模长为1的对角阵。因此考虑上$\boldsymbol D$的影响，则$\boldsymbol Q_1 = \boldsymbol{QD}^{-1}$，$\boldsymbol R_1 = \boldsymbol{DR}$
应用	QR分解被广泛应用于线性最小二乘问题的求解和矩阵特征值的计算。
其他说明

满秩分解

	具体内容	备注
定义及形式	设$\boldsymbol A \in \mathbb{C}^{m \times n}_r (r>0)$，若存在矩阵$\boldsymbol F \in \mathbb{C}^{m \times r}_r$和$\boldsymbol G \in \mathbb{C}^{r \times n}_r$使得$\boldsymbol{A=FG}$	式中$\boldsymbol F$为列满秩、$\boldsymbol G$为行满秩，它们的秩：$\text{rank}(\boldsymbol F) = \text{rank}(\boldsymbol G) = r$
计算方法	Hermite标准型(行最简型)方法求解$\boldsymbol F$、$\boldsymbol G$（具体参考笔记）
存在性	任何非零矩阵一定存在满秩分解，证明参考：矩阵的分解：满秩分解和奇异值分解-CSDN博客
唯一性	满秩分解不唯一。证：假设存在$r$阶可逆方阵$\boldsymbol D$，则$\boldsymbol A = \boldsymbol{FG} = \boldsymbol F (\boldsymbol{DD}^{-1}) \boldsymbol G = (\boldsymbol{FD})(\boldsymbol D^{-1} \boldsymbol G) = \boldsymbol F' \boldsymbol G'$
应用	满秩分解用途很广，尤其是后期的对于广义逆的学习来说非常重要；满秩分解可以用于数据压缩：满秩分解、奇异值分解（SVD）原理总结
其他说明

特征值分解

	具体内容	备注
定义及形式	矩阵特征值分解又可称作矩阵的对角化、谱分解，是将方阵分解为由其特征值和特征向量表示的矩阵积的方法。对于一个秩为$m$的方阵$\boldsymbol A$，应该存在$m$个这样的特征值，完备形式为： $$ \boldsymbol A\left(\boldsymbol x_1, \boldsymbol x_2, \cdots, \boldsymbol x_m\right)=\left(\lambda_1 \boldsymbol x_1, \lambda_2 \boldsymbol x_2, \cdots, \lambda_m \boldsymbol x_m \right)=\left(\boldsymbol x_1, \boldsymbol x_2, \cdots, \boldsymbol x_m\right)\left(\begin{array}{cccc} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_m \end{array}\right) $$ 上面的式子可以写作$$ \boldsymbol{AX = X \Lambda} \quad \Longleftrightarrow \quad \boldsymbol{A = X \Lambda X}^{-1} \quad \Longleftrightarrow \quad \boldsymbol{A = X \Lambda X}^{\mathrm T} $$	从变换的角度理解，从运动变换的角度理解，矩阵乘以向量可以分三步：首先将这个向量使用特征向量组成的正交基向量进行分解；然后目标向量在每个特征向量方向上的分量分别进行拉伸操作；对所有特征向量方向上的拉伸结果进行合并。
计算方法	计算方法相对简单，就是特征值分解，
存在性	不是任意方阵都存在特征值分解。 $n$阶方阵可以做特征值分解的充要条件是其有 $n$个线性无关的特征向量。	只要保证有$n$个线性无关的特征向量即可，方阵不一定需要满秩，例如方阵$${\bf{A}} = \left( {\begin{array}{*{20}{c}} 1&1\\ 1&1 \end{array}} \right)$$
唯一性	特征值分解不是唯一的，但所有的特征值分解都会共享相同的特征值。特征向量的选择和缩放可能会不同，从而导致不同的特征向量矩阵和对应的特征值矩阵。
应用
其他说明	一般而言，方阵特征值分解后特征向量组成的矩阵$\boldsymbol X$一般是正交阵。

SVD分解

	具体内容	备注
定义及形式	对于一个秩为$r$的矩阵$\boldsymbol A$，必存在$m \times m$的正交阵$\boldsymbol U$、$n \times n$的正交阵$\boldsymbol V$和$m \times n$的矩阵$\boldsymbol \Gamma$，使得 $\boldsymbol{A}_{m \times n}=\boldsymbol{U}_{m \times m} \boldsymbol{\Sigma}_{m \times n} \boldsymbol{V}_{n \times n}^{\mathrm T}=\boldsymbol{U}_{m \times m}\left(\begin{array}{cc}\boldsymbol{D}_{r \times r} & \boldsymbol{O} \\ \boldsymbol{O} & \boldsymbol{O}\end{array}\right)_{m \times n} \boldsymbol{V}_{n \times n}^{\mathrm T}$ 其中，$\boldsymbol D_{r \times r} = \text{diag}(\sqrt{\lambda_1}, \sqrt{\lambda_2}, \cdots, \sqrt{\lambda_r})$	$\boldsymbol A \in \mathbb{C}^{m \times n}_r$，$\boldsymbol A^{\mathrm H} \boldsymbol A$的特征值为： $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_r > \lambda_{r+1} = \cdots = \lambda_n = 0$ 称$\sigma_i = \sqrt{\lambda_i}$为矩阵$\boldsymbol A$的奇异值。
计算方法	第一步：求出$\boldsymbol A^{\mathrm H}\boldsymbol A$的$n$个特征值$\lambda_1, \lambda_2, \cdots, \lambda_r, \lambda_{r+1} = \cdots = \lambda_n = 0$（并按照从大到小排列）和对应的标准正交的特征向量$\boldsymbol{v}_1, \boldsymbol{v}_2, \cdots, \boldsymbol{v}_r, \boldsymbol{v}_{r+1}, \cdots, \boldsymbol{v}_n$；
	第二步：取标准正交的特征向量构成正交矩阵$\boldsymbol V = (\boldsymbol{v}_1, \boldsymbol{v}_2, \cdots, \boldsymbol{v}_r, \boldsymbol{v}_{r+1}, \cdots, \boldsymbol{v}_n)$，取正奇异值，即前$r$个奇异值，即非零特征值开根号构成$\boldsymbol D$矩阵，$\boldsymbol D_{r \times r} = \text{diag}(\sqrt{\lambda_1}, \sqrt{\lambda_2}, \cdots, \sqrt{\lambda_r})$，添加额外的0组成$m \times n$的矩阵$\Sigma_{m \times n} = \left(\begin{array}{cc}\boldsymbol{D}_{r \times r} & \boldsymbol{O} \\ \boldsymbol{O} & \boldsymbol{O}\end{array}\right)$
	第三步：构成前$r$个标准正交向量$\boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_r$，其中$\boldsymbol{u}_i = \dfrac{1}{\sqrt{\lambda_i}}\boldsymbol{Av}_i, i = 1,2, \cdots, r$
	第四步：按照标准正交基扩充的方法，将$\boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_r$扩充为$m$维向量空间$\mathbb{R}^m$的标准正交基$\boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_r, \boldsymbol{b}_1, \cdots, \boldsymbol{b}_{m-r}$组成正交矩阵$\boldsymbol U_{m \times m} = \boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_r, \boldsymbol{b}_1, \cdots, \boldsymbol{b}_{m-r}$，请参考链接16.9通过例子来理解扩充基方法
	第五步：写出SVD的分解结果即可： $\boldsymbol{A}_{m \times n}=\boldsymbol{U}_{m \times m} \boldsymbol{\Sigma}_{m \times n} \boldsymbol{V}_{n \times n}^{\mathrm T}$
存在性	任何矩阵都可以进行上面的奇异值分解，它是方阵对角化的推广。
唯一性	一个矩阵的奇异值分解一定存在，但不唯一。
应用	参考：奇异值分解（SVD）有哪些很厉害的应用？ - 叶小飞的回答 - 知乎
其他说明	矩阵$\boldsymbol A$的奇异值的个数等于$\boldsymbol A$的列数，$\boldsymbol A$的非零奇异值的个数等于$\text{rank}(\boldsymbol A)$

参考17.1：矩阵分解算法 - 博客园
参考17.2：矩阵的几种分解方式 - 加强版 - 二圈妹的文章 - 知乎
参考17.3：【矩阵论】矩阵的各种分解汇总 - ohanlon的文章 - 知乎
参考17.4：常见的几种矩阵分解方式 - bitcarmanlee的文章 - CSDN
参考17.5：非方阵LU分解 - Cliven的文章 - CSDN
参考17.6：矩阵与数值计算（2）——矩阵三角分解LU、PALU、Cholesky三角分解、QR分解 - 乔胤博的文章 - 知乎
参考17.7：【矩阵论】UR(QR) 分解 - 施密特正交化 - ohanlon的文章 - 知乎：行满秩矩阵的QR分解。
参考17.8：奇异值分解（SVD）的定义、证明、求法（矩阵分解——3. 奇异值分解（SVD）） - Iterator的文章 - 知乎
参考17.9：【矩阵论】矩阵的奇异值分解 - ohanlon的文章 - 知乎
参考17.10：【线性代数】矩阵的特征值分解（对角化、谱分解）- CSDN

知识点18： 齐次/非齐次微分方程组的解：

① 齐次微分方程组的解

对于如下形式的齐次微分方程组：

\[\dfrac{\mathrm{d}}{\mathrm{d}t} \boldsymbol{x}(t) = \boldsymbol{Ax}(t) \]

其中，$\boldsymbol{A} = (a_{ij})_{n \times n}$，$\boldsymbol{x}(t) = \left(\xi_1(t), \xi_2(t), \cdots, \xi_n(t)\right)^{\mathrm T}$。

其解空间为：

\[S = \begin{Bmatrix}\boldsymbol{x}(t) \mid \dfrac{\mathrm{d}}{\mathrm{d}t} \boldsymbol{x}(t) = \boldsymbol{Ax}(t)\end{Bmatrix} \]

有以下2个结论：

矩阵函数$e^{t \boldsymbol A}$是可逆的，其$n$个列向量$\boldsymbol x_1(t), \cdots, \boldsymbol x_n(t)$是$S$的一个基，也就是基础解系。
若给了初始条件$\xi_1(0) = \gamma_1, \xi_2(0) = \gamma_2, \cdots, \xi_n(0) = \gamma_n$，记$\boldsymbol c = (\gamma_1, \gamma_2, \cdots, \gamma_n)^{\mathrm T}$，则称$\boldsymbol{x}(t) = e^{t \boldsymbol{A}} \boldsymbol{c}$为一般解/通解。

\[\boldsymbol{x}(t) = e^{t \boldsymbol{A}} \boldsymbol{c} = \gamma_1 \boldsymbol{x}_1(t)+\gamma_2 \boldsymbol{x}_2(t)+\cdots+\gamma_n \boldsymbol{x}_n(t) \]

② 非齐次微分方程组的解

对于如下形式的非齐次微分方程组：

\[\dfrac{\mathrm{d}}{\mathrm{d}t} \boldsymbol{x}(t) = \boldsymbol{Ax}(t) + \boldsymbol{b}(t) \]

其中，$\boldsymbol{b}(t) = \left(\beta_1(t), \beta_2(t), \cdots, \beta_n(n) \right)^{\mathrm T}$。

设$\boldsymbol{x}(t)$是方程一般解/通解，$\widetilde{\boldsymbol{x}}(t)$是方程的一个特解。

特解$\widetilde{\boldsymbol{x}}(t)$的求解一般是通过常数变异法：$\widetilde{\boldsymbol{x}}(t) = e^{t \boldsymbol A} \boldsymbol{c}(t)$。最终可求得非齐次微分方程组的一个特解为：

\[\widetilde{\boldsymbol{x}}(t) = e^{t \boldsymbol A} \int_{t_0}^t e^{-s \boldsymbol A}\boldsymbol{b}(s)\text{ d}s \]

综上，可得下面2条结论：

非齐次微分方程组的一般解/通解为：

\[\boldsymbol{x}(t) = e^{t \boldsymbol A}\boldsymbol{k} + \widetilde{\boldsymbol{x}}(t) = e^{t \boldsymbol A}\boldsymbol{k} + e^{t \boldsymbol A} \int_{t_0}^t e^{-s \boldsymbol A}\boldsymbol{b}(s)\text{ d}s \]

若给定初始条件：$\boldsymbol{x}(t_0) = \boldsymbol{x}_0$，则解为：

\[\boldsymbol{x}(t) = e^{t \boldsymbol A}\left(e^{-t_0 \boldsymbol A}\boldsymbol{x}_0 + \int_{t_0}^t e^{-s \boldsymbol A}\boldsymbol{b}(s)\text{ d}s\right) \]

其中，$\boldsymbol{k} = (\kappa_1, \kappa_2, \cdots, \kappa_n)^{\mathrm T}$为任意常数向量。

知识点19： 投影：

① 矢量向矢量投影：把矢量$\boldsymbol x$投影到矢量$\boldsymbol a$上

\[\text{Proj}_{\boldsymbol a} \boldsymbol x = \boldsymbol a \frac{(\boldsymbol a, \boldsymbol x)}{\| \boldsymbol a \|^2} = \boldsymbol a \frac{(\boldsymbol a, \boldsymbol x)}{(\boldsymbol a, \boldsymbol a)} = \boldsymbol a (\boldsymbol a, \boldsymbol a)^{-1} (\boldsymbol a, \boldsymbol x) = \boldsymbol a (\boldsymbol a^{\mathrm H} \boldsymbol a)^{-1} \boldsymbol a^{\mathrm H} \boldsymbol x \]

② 矢量向矩阵投影：把矢量$\boldsymbol x$投影到矩阵$\boldsymbol A$的列构成的空间中

\[\text{Proj}_{\boldsymbol A} \boldsymbol x = \boldsymbol A (\boldsymbol A^{\mathrm{H}} \boldsymbol A)^{-1} \boldsymbol A^{\mathrm{H}} \cdot \boldsymbol x \]

③ 矩阵向矩阵投影：把矩阵$\boldsymbol X$向$\boldsymbol A$的列向量张成的子空间投影

\[\text{Proj}_{\boldsymbol A} \boldsymbol X = \boldsymbol A (\boldsymbol A^{\mathrm{H}} \boldsymbol A)^{-1} \boldsymbol A^{\mathrm{H}} \cdot \boldsymbol X \]

④ 矩阵向矩阵补空间投影：把矩阵$\boldsymbol X$向$\boldsymbol A$的列向量张成的子空间的正交补空间投影

\[\text{Proj}_{\boldsymbol A^{\perp}} \text{ }\boldsymbol X = \boldsymbol I - \boldsymbol A (\boldsymbol A^{\mathrm{H}} \boldsymbol A)^{-1} \boldsymbol A^{\mathrm{H}} \cdot \boldsymbol X \]

知识点20： 特征值与秩：

设方阵$\boldsymbol A$阶数为$n$，特征值个数为$k$，其中有$i$重特征值$\lambda_i$，单个$\lambda$对应的无关特征向量个数为$t$，方阵的秩为$r$。

特征值

① 特征值个数$k$(包括重根和复根)与方阵的阶数$n$相等；

② 特征值个数$k$ $\geq$ 所有无关特征向量数之和(因为$i$重特征值$λ_i$最多有$i$个线性无关的特征向量)；

③ 特征值个数$k$与方阵的秩无关。

特征向量

① 单个$λ$对应的无关特征向量个数$t$与方阵的秩$r$没有什么直接的关系，它们都小于等于方阵阶数$n$。

方阵的秩：方阵的秩$r$与它的特征值$λ_i=0$的重数$i$有关

① 当方阵$\boldsymbol A$可以相似对角化时(这里自然是包括了方阵$\boldsymbol A$为实对称矩阵的情况)，$i=n-r$。

因为$\boldsymbol A \sim \boldsymbol \Lambda$, 所以$\text{rank}(\boldsymbol A) = \text{rank}(\boldsymbol \Lambda)$。此时若$\text{rank}(\boldsymbol A) = \text{rank}(\boldsymbol \Lambda) = r$，意味着对角阵有$r$个不为零的特征值，即$\boldsymbol A$也有$r$个不为零的特征值，进而得到$\boldsymbol A$有$n-r$重特征值：$λ_i = 0$

② 当方阵$\boldsymbol A$不可相似对角化时，$i \geq n-r$。

首先，对于$i$重特征值$λ_i$最多有$i$个线性无关的特征向量，反过来说，同一特征值$λ_i$对应的线性无关的特征向量个数(设为t）$t <= i$。对于$λ_i = 0$，有$r(0\boldsymbol E - \boldsymbol A) = \text{rank}(-\boldsymbol A) = \text{rank}(\boldsymbol A) = r$，所以，$λ_i$的线性无关特征向量个数$t = n-r$，根据上一行的说法就有，$λ_i=0$的重数$t \leq i$ ，即$i \geq n-r$。

🧺 正交变换(正交矩阵)不改变秩、特征值、行列式、迹，另外它不改变向量的长度(保模长性质)。

参考20.1：特征值个数，特征向量个数与矩阵的秩之间有什么关系？ - 知乎

知识点21： 范德蒙(Vandermonde)矩阵和范德蒙行列式：

🎫 Vandermonde 矩阵具有以下形式：

\[\boldsymbol A=\left[\begin{array}{ccccc} 1 & x_1 & x_1^2 & \cdots & x_1^{m-1} \\ 1 & x_2 & x_2^2 & \cdots & x_2^{m-1} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_n & x_n^2 & \cdots & x_n^{m-1} \end{array}\right]_{n \times m} \qquad \quad \boldsymbol A^{\mathrm T}=\left[\begin{array}{cccc} 1 & 1 & \cdots & 1 \\ x_1 & x_2 & \cdots & x_n \\ x_1^2 & x_2^2 & \cdots & x_n^2 \\ \vdots & \vdots & \ddots & \vdots \\ x_1^{m-1} & x_2^{m-1} & \cdots & x_n^{m-1} \end{array}\right]_{m \times n} \]

具有如上$\boldsymbol A$或者$\boldsymbol A^{\mathrm T}$形式的矩阵称为范德蒙(Vandermonde)矩阵。

🏓 $n$阶Vandermonde矩阵的行列式计算

\[\operatorname{det} \boldsymbol A_n = \prod_{1 \leq j,i \leq n}(x_i - x_j) \]

例如：

\[\operatorname{det} \boldsymbol A_3=\left|\begin{array}{lll} 1 & x_1 & x_1^2 \\ 1 & x_2 & x_2^2 \\ 1 & x_3 & x_3^2 \end{array}\right| = (x_2 - x_1)(x_3 - x_2)(x_3 - x_1) \]

🍰 范德蒙矩阵的秩

当$m \leq n$时，矩阵的秩为$m$，当且仅当所有的$x_i$各不相等。
当$m \geq n$时，矩阵的秩为$n$，当且仅当至少$n$个$x_i$各不相等。

🏳‍🌈 范德蒙矩阵的应用

可应用于多项式最小二乘法拟合以及多项式插值。

参考资料21.1：范德蒙矩阵、范德蒙行列式 - 小时百科

知识点22： 秩1矩阵

秩为1的矩阵一定能分解成一个行矩阵和列矩阵的乘积：

\[\boldsymbol A = \boldsymbol{uv}^{\mathrm T} \]

$n$阶矩阵$\boldsymbol A$，$\text{rank}(\boldsymbol A) = 1$，则$\boldsymbol A$的特征值一个是$\boldsymbol A$的迹，其余都是0，即：

\[\lambda_1 = \text{tr}(\boldsymbol A) = \sum_{i=1}^n a_{ii}, \qquad \lambda_2 = \lambda_3 = \cdots = \lambda_n = 0 \]

秩1矩阵可对角化的条件：

若$\lambda_1 = \text{tr}(\boldsymbol A) \neq 0$，则秩1矩阵$\boldsymbol A$可以矩阵对角化；
若$\lambda_1 = \text{tr}(\boldsymbol A) = 0$，则秩1矩阵$\boldsymbol A$不可以矩阵对角化；

参考22.1：关于秩为1矩阵的重要结论 - 小海考研人的文章 - 知乎
参考22.2：秩1矩阵的性质及其在统计学中的应用 - 文献
参考22.3：为什么秩为1的矩阵可以写成1列乘1行的情形呢？ - 知乎

知识点23： 奇异值分解(SVD)

矩阵对角化

矩阵对角化有很多应用：简化计算、解方程等等，但不是所有矩阵都可以对角化的，矩阵可对角化的条件参考本文知识点17_特征值分解和矩阵可对角化的充要条件 - 我思故我在的文章 - 知乎。可对角化矩阵例：对称矩阵。

对于一般的$m \times n$矩阵$\boldsymbol A$，有没有类似的操作？

① 回忆线性代数的知识：方程$\boldsymbol{Ax = b}$不一定有解，但是$\boldsymbol{A}^{\mathrm T} \boldsymbol{Ax} = \boldsymbol{A}^{\mathrm T} \boldsymbol b$一定有解。

② 考虑方阵$\boldsymbol{A}^{\mathrm T}\boldsymbol A$和$\boldsymbol{A}\boldsymbol{A}^{\mathrm T}$，它们都是半正定矩阵，所以可以对角化而且特征值大于等于0。

方阵$\boldsymbol{A}^{\mathrm T}\boldsymbol A$和$\boldsymbol{A}\boldsymbol{A}^{\mathrm T}$可进行对角化：$\boldsymbol{A}^{\mathrm T}\boldsymbol A = \boldsymbol{V}\boldsymbol{\Lambda}_1 \boldsymbol{V}^{\mathrm T} \quad \boldsymbol{A}\boldsymbol{A}^{\mathrm T} = \boldsymbol{U}\boldsymbol{\Lambda}_2 \boldsymbol{U}^{\mathrm T}$，也就有：

\[\begin{aligned} &\boldsymbol{V}^{\mathrm T}\boldsymbol{A}^{\mathrm T}\boldsymbol{A} \boldsymbol{V} = (\boldsymbol{A} \boldsymbol{V})^{\mathrm T}(\boldsymbol{A} \boldsymbol{V}) = \boldsymbol{\Lambda}_1\\ &\boldsymbol{U}^{\mathrm T}\boldsymbol{A}\boldsymbol{A}^{\mathrm T} \boldsymbol{U} = (\boldsymbol{U}^{\mathrm T}) \boldsymbol{A}(\boldsymbol{A}^{\mathrm T} \boldsymbol{U}) = \boldsymbol{\Lambda}_2 \end{aligned} \]

💦 猜测：找到正交矩阵$\boldsymbol{U}$和$\boldsymbol{V}$使得$m \times n$矩阵$\boldsymbol{U}^{\mathrm T} \boldsymbol{A} \boldsymbol{V}$可以写成$\boldsymbol \Sigma$？其中$\boldsymbol \Sigma$是某种意义上的“对角”矩阵。

奇异值

对于一个$m \times n$的实矩阵$\boldsymbol{A}$，则$\boldsymbol{A}^{\mathrm T} \boldsymbol{A}$是一个$n \times n$的对称矩阵，$\{\boldsymbol{q}_1, \boldsymbol{q}_2, \cdots, \boldsymbol{q}_n\}$是由$\boldsymbol{A}^{\mathrm T} \boldsymbol{A}$的特征向量构成的$\mathbb R^n$中的正交归一基，对应的实特征值为$\{\lambda_1, \lambda_2, \cdots, \lambda_n\}$，假设$\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \geq 0$，则矩阵$\boldsymbol A$的奇异值定义$\boldsymbol{A}^{\mathrm T} \boldsymbol{A}$的特征值的平方根：

\[\sigma_1 = \sqrt{\lambda_i} \]

引入如下两个不加证明的定理：

定理1：对于一个$m \times n$的矩阵$\boldsymbol{A}$，其秩满足：$\mathrm{rank}(\boldsymbol{A}) = \mathrm{rank}(\boldsymbol{A}^{\mathrm T}) = \mathrm{rank}(\boldsymbol{A}\boldsymbol{A}^{\mathrm T}) = \mathrm{rank}(\boldsymbol{A}^{\mathrm T}\boldsymbol{A})$。

定理2：对于一个$m \times n$的实矩阵$\boldsymbol{A}$，其非0奇异值$\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0$的个数$r$等于矩阵$\boldsymbol{A}$的秩，$r = \mathrm{rank}(\boldsymbol{A})$

奇异值分解

广义对角矩阵：$m \times n$矩阵$\boldsymbol \Sigma$

\[\boldsymbol \Sigma = \left[\begin{array}{cc} \boldsymbol D & \boldsymbol 0 \\ \boldsymbol 0 & \boldsymbol 0 \end{array}\right] \]

其中，$\boldsymbol D$是一个$r \times r$的对角矩阵，$\boldsymbol \Sigma$所有大于$r$的行和列的元素均为0。

定理(SVD)：$m \times n$矩阵$\boldsymbol{A}$的秩为$r$。则存在一个形状如上的$m \times n$矩阵$\boldsymbol \Sigma$且$\boldsymbol D$的对角元是$\boldsymbol{A}$的前$r$个(非零)的奇异值，$m \times m$的正交矩阵$\boldsymbol{U}$和$n \times n$的正交矩阵$\boldsymbol{V}$，而且以上矩阵满足关系：

\[\boldsymbol{A} = \boldsymbol{U \Sigma V}^{\mathrm T} \]

推论1：$\{\boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_m\}$是矩阵$\boldsymbol{A}\boldsymbol{A}^{\mathrm T}$的特征向量，$\{\boldsymbol{v}_1, \boldsymbol{v}_2, \cdots, \boldsymbol{v}_n\}$是矩阵$\boldsymbol{A}^{\mathrm T}\boldsymbol{A}$的特征向量，即$\boldsymbol{U}$和$\boldsymbol{V}$分别是将$\boldsymbol{A}\boldsymbol{A}^{\mathrm T}$和$\boldsymbol{A}^{\mathrm T}\boldsymbol{A}$对角化的正交矩阵。

推论2：
① $\{\boldsymbol{v}_1, \boldsymbol{v}_2, \cdots, \boldsymbol{v}_r\}$是$C(\boldsymbol{A}^{\mathrm T})$的正交归一基，$\boldsymbol{V}_r = (\boldsymbol{v}_1, \boldsymbol{v}_2, \cdots, \boldsymbol{v}_r)$；
② $\{\boldsymbol{v}_{r+1}, \boldsymbol{v}_{r+2}, \cdots, \boldsymbol{v}_n\}$是$N(\boldsymbol{A})$的正交归一基，$\boldsymbol{V}_{n-r} = (\boldsymbol{v}_{r+1}, \boldsymbol{v}_{r+2}, \cdots, \boldsymbol{v}_n)$；
③ $\{\boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_r\}$是$C(\boldsymbol{A})$的正交归一基，$\boldsymbol{U}_r = (\boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_r)$；
④ $\{\boldsymbol{u}_{r+1}, \boldsymbol{u}_{r+2}, \cdots, \boldsymbol{u}_m\}$是$N(\boldsymbol{A}^{\mathrm T})$的正交归一基，$\boldsymbol{U}_{m-r} = (\boldsymbol{u}_{r+1}, \boldsymbol{u}_{r+2}, \cdots, \boldsymbol{u}_m)$；

推论3：$\boldsymbol{A}\boldsymbol{A}^{\mathrm T}$和$\boldsymbol{A}^{\mathrm T}\boldsymbol{A}$的非0特征值都相同。

奇异值分解的应用

数据压缩：假设$rank(\boldsymbol{A}) < \min(m, n)$，则：

\[\boldsymbol A=\left(\boldsymbol U_r, \boldsymbol U_{m-r}\right)\left[\begin{array}{cc} \boldsymbol D & \boldsymbol 0 \\ \boldsymbol 0 & \boldsymbol 0 \end{array}\right]\left[\begin{array}{c} \boldsymbol V_r^T \\ \boldsymbol V_{n-r}^T \end{array}\right]=\boldsymbol U_r \boldsymbol D \boldsymbol V_r^T=\sum_{i=1}^r \sigma_i \boldsymbol{u}_i \boldsymbol{v}_i^{\mathrm T} \]

这意味着可以只用$\boldsymbol U_r$、$\boldsymbol D$、$\boldsymbol V_r$三个子矩阵的总共$r \times (m+1+n)$个分量完全决定$\boldsymbol A$。

例如：图像压缩
先考虑灰度图像，可以用一个$m \times n$的矩阵描述，每个元素是该像素的灰度(0-255之间的整数，0是黑，255是白)，如果$r \times (m+1+n) < mn$，我们可以只储存或者传输$\boldsymbol U_r$、$\boldsymbol D$、$\boldsymbol V_r$(无损)。例如矩阵秩为1的时候我们只需要储存一个行向量和一个列向量，甚至可以把很小的奇异值当成零忽略，进一步压缩图片（有损）。

矩阵伪逆：由于$m \times n$的矩阵$\boldsymbol{A} = \boldsymbol{U \Sigma V}^{\mathrm T}$，则其伪逆可直接求得：

\[\boldsymbol{A}^+ = \boldsymbol{V \Sigma^+ U}^{\mathrm T} = \boldsymbol{V} \left(\begin{array}{cc} \boldsymbol{D}^{-1} & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{0}\end{array}\right)\boldsymbol{U}^{\mathrm T} = \sum_{k=1}^r \sigma_k^{-1} \boldsymbol v_k \boldsymbol u_k^{\mathrm T} \]

① $\boldsymbol{A}^+\boldsymbol{A} = \boldsymbol{V \Sigma}^+\boldsymbol{U}^{\mathrm T}\boldsymbol{U \Sigma}\boldsymbol{V}^{\mathrm T} = \boldsymbol{V}\left(\begin{array}{cc} \boldsymbol{I}_{r \times r} & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{0}\end{array}\right) \boldsymbol{V}^{\mathrm T}$是投影到$C(\boldsymbol{A}^{\mathrm T})$的矩阵。

② $\boldsymbol{A}\boldsymbol{A}^+ = \boldsymbol{U \Sigma}\boldsymbol{V}^{\mathrm T}\boldsymbol{V \Sigma}^+\boldsymbol{U}^{\mathrm T} = \boldsymbol{U}\left(\begin{array}{cc} \boldsymbol{I}_{r \times r} & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{0}\end{array}\right) \boldsymbol{U}^{\mathrm T}$是投影到$C(\boldsymbol{A})$的矩阵。

矩阵伪逆可以用来求解最小二乘问题：最小二乘$\boldsymbol{A}^{\mathrm T}\boldsymbol{Ax} = \boldsymbol{A}^{\mathrm T}\boldsymbol{b}$的解为$\boldsymbol{x}^+ = \boldsymbol{A}^+ \boldsymbol{b}$。

矩阵的模：$\| \boldsymbol{A} \| = \max \dfrac{\| \boldsymbol{Ax} \|}{\| \boldsymbol{x} \|} = \sigma_1$(关于矩阵模的详细定义和性质请参考链接23.1)。

参考23.1：奇异值分解 - 颜文斌 - 清华大学(在线pdf文件)
参考23.2：矩阵之芯 SVD: 奇异值分解及其几何解释 - mathinside的文章
参考23.3：矩阵的奇异值分解与广义逆矩阵及其应用 - 知乎、一文学会，线性回归超全总结，让你成为高手！ - 知乎：这两篇文章内容相似，简要提及了SVD的自由度问题。

知识点24： 主成分分析(PCA)

统计知识

假设一组数据来源于$n$个样本$\{\mu_1, \mu_2, \cdots, \mu_n\}$，其平均值$\bar{\mu} = \dfrac{\sum{i=1}^n \mu_i}{n}$，标准差$\sigma = \sqrt{\dfrac{\sum{i=1}^n (\mu_i - \bar \mu)}{n-1}}$。

标准差有$n-1$个自由度，因为平均值也是一个自由度；标准差越大，数据越分散。

假设$n$个样本，每个样本$i$我们得到两个数据$\mu_i$和$\rho_i$(例所有同学的期中考试成绩$\mu_i$和平时作业成绩$\rho_i$，则协方差可定义为：$\operatorname{cov}(\mu, \rho)=\frac{\sum_{i=1}^n\left(\mu_i-\bar{\mu}\right)\left(\rho_i-\bar{\rho}\right)}{n-1}$。

协方差描述了$\mu$和$\rho$之间的相关性 —— $\operatorname(\mu, \rho) > 0$正相关，$\operatorname(\mu, \rho) < 0$负相关。

将数据存在一个$m \times n$的矩阵$\boldsymbol A_0$中，每一行对应一种数据，每一列代表一个样本，将中心化之后的数据记为$\boldsymbol A$(由$\boldsymbol A_0$的每一个元素减去它所在行的平均值得到)：

\[\boldsymbol A_{ij} = (\boldsymbol A_0)_{ij} - \dfrac{\sum_{k=1}^n (\boldsymbol A_0)_{ik}}{n} \]

则协方差矩阵（covariance matrix）可定义为：

\[\boldsymbol S = \dfrac{\boldsymbol{AA}^{\mathrm T}}{n-1} \]

样本方差：$\boldsymbol S_{ii} = \sigma_i^2$，第$i$种数据的标准差平方。$\boldsymbol S_{ij}$：第$i$种和第$j$种数据的协方差；
总方差(totalvariance)：$\mathrm{tr}\boldsymbol S = \sum_i \boldsymbol S_{ii} = \sum_i \sigma_i^2$。

主成分分析(PCA)

一般来说数据$i$和数据$j$可能会有相关，也就是说它们之间的协方差$\boldsymbol S_{ij}$不等于$0$，主成分分析就是要找到原有数据的一系列线性组合作为新的数据，新数据之间的协方差为0。

$\boldsymbol A$的奇异值分解为$\boldsymbol A = \boldsymbol{U \Sigma V}^{\mathrm T}$，定义新的数据矩阵$\boldsymbol B$：

\[\boldsymbol B = \boldsymbol{U}^{\mathrm T}\boldsymbol A = \boldsymbol{\Sigma V}^{\mathrm T} \]

此时，计算可得新的数据矩阵$\boldsymbol B$的协方差为：

\[\dfrac{\boldsymbol{BB}^{\mathrm T}}{n-1} = \dfrac{\boldsymbol{\Sigma V}^{\mathrm T}\boldsymbol{V \Sigma}^{\mathrm T}}{n-1} = \dfrac{\boldsymbol{\Sigma \Sigma}^{\mathrm T}}{n-1} \]

因为$\boldsymbol{\Sigma \Sigma}^{\mathrm T}$是对角矩阵，因此$\boldsymbol B$的数据之间的协方差为0，同时可得“新数据的方差 = $\boldsymbol A$的奇异值平方/(n-1)”。

PCA的简要分析

原数据矩阵：$\boldsymbol{A} = (\boldsymbol a_1, \boldsymbol a_2, \cdots, \boldsymbol a_n)$；

第$i$列向量$\boldsymbol a_i$对应样本$i$的数据；

新数据矩阵：$\boldsymbol{B} = (\boldsymbol b_1, \boldsymbol b_2, \cdots, \boldsymbol b_n) = \boldsymbol{U}^{\mathrm T}\boldsymbol{A} = (\boldsymbol{U}^{\mathrm T}\boldsymbol a_1, \boldsymbol{U}^{\mathrm T}\boldsymbol a_2, \cdots, \boldsymbol{U}^{\mathrm T}\boldsymbol a_n)$

$\boldsymbol{B}$的第$i$列向量$\boldsymbol b_i$对应样本$i$的数据，这些数据由$\boldsymbol a_i$的分量决定：$\boldsymbol b_i = \boldsymbol{U}^{\mathrm T} \boldsymbol a_i$；

因为$\boldsymbol{U}$是正交矩阵$\boldsymbol{UU}^{\mathrm T} = \boldsymbol{U}^{\mathrm T}\boldsymbol{U} = \boldsymbol{I}$，$\boldsymbol{a}_i = \boldsymbol{U}\boldsymbol{b}$。

① $\boldsymbol{A}$的非零奇异值的数量是$\boldsymbol{A}$的秩$r$，$r+1$到$m$的新数据的方差是0；

② 所有的数据都在$\mathrm R^m$的$m-r$个平面$\sum\limits_{j=1}^m \boldsymbol{U}_{ji}\boldsymbol{x}_j = 0, i = r+1,⋯,m$的交集上；

③ 所有数据点分布在一个$r$维的空间中，这个空间由$\{\boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_r\}$张成（是$C(\boldsymbol{A})$的正交归一基）；

④ 如果第$i$个奇异值很接近$0$，说明数据很靠近平面$\sum\limits_{j=1}^m \boldsymbol{U}_{ji}\boldsymbol{x}_j = 0, i = r+1,⋯,m$。

主成分：$\{\boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_r\}$，其中$\boldsymbol{u}_1$是所有数据变化最大的方向（对应的方差最大），$\boldsymbol{u}_3$次之……主成分是描述整组数据最重要的线性组合，而且互相独立；由于$r \leq m$，所以虽然每个样本测了$m$个数据，里面只有$r$个是独立的。

$\{\boldsymbol{v}_1, \boldsymbol{v}_2, \cdots, \boldsymbol{v}_r\}$都是$n$维向量，每个分量对应一个样本：
第一主成分的数值：$\boldsymbol{u}_1^{\mathrm T} \boldsymbol{A} = \boldsymbol{u}_1^{\mathrm T}\left(\sum\limits_{k=1}^r \sigma_k \boldsymbol{u}_i \boldsymbol{v}_i^{\mathrm T}\right) = \sigma_1 \boldsymbol{v}_1^{\mathrm T}$；
$\sigma_1 \boldsymbol{v}_1$的第$i$个分量是第$i$个样本的第一主成分的值，同理$\sigma_j \boldsymbol{v}_j$的第$i$个分量是第$i$个样本的第$j$个主成分的值；
$\boldsymbol{v}_j$是单位向量，所以每个分量的绝对值小于等于1，数据的分散程度取决于$\sigma_j$。

知识点25： Toeplitz矩阵的范德蒙德分解：

对于任意的秩满足$r \leq N$的半正定Toeplitz矩阵$\boldsymbol T(u) \in \mathbb{C}^{N \times N}$，则有如下的$r-$原子范德蒙德分解：

\[\boldsymbol T(u) = \sum_{k=1}^{r} p_k \boldsymbol a(f_k) \boldsymbol a^{\mathrm H}(f_k) = \boldsymbol A(f) \mathrm{diag}(\boldsymbol p) \boldsymbol A^{\mathrm H}(f) \]

其中，$\boldsymbol A(f) = [\boldsymbol a(f_1), \boldsymbol a(f_2), \cdots, \boldsymbol a(f_r)]$。当$r < N$时，此分解是唯一的。

参考25.1：压缩感知的尽头: 原子范数最小化 - CSDN

知识点26： Kronecker积和矩阵向量化(拉直)Vec的相关性质：

Kronecker积的相关定理：

定理1：设矩阵$\boldsymbol A \in \mathbb{C}^{m \times n}, \boldsymbol B \in \mathbb{C}^{p \times q}$，则有$\mathrm{rank}(\boldsymbol A \otimes \boldsymbol B) = \mathrm{rank}(\boldsymbol A) \mathrm{rank}(\boldsymbol B)$。

定理2：设矩阵$\boldsymbol A \in \mathbb{C}^{m \times m}, \boldsymbol B \in \mathbb{C}^{n \times n}$，则有$\mathrm{Tr}(\boldsymbol A \otimes \boldsymbol B) = \mathrm{Tr}(\boldsymbol A) \mathrm{Tr}(\boldsymbol B)$。

定理3：设矩阵$\boldsymbol A \in \mathbb{C}^{m \times m}, \boldsymbol B \in \mathbb{C}^{n \times n}$，则有$\mathrm{det}(\boldsymbol A \otimes \boldsymbol B) = \mathrm{det}(\boldsymbol A)^n \mathrm{det}(\boldsymbol B)^m$。

定理4：若$\boldsymbol A \succeq 0, \boldsymbol B \succeq 0$，则有$\boldsymbol A \otimes \boldsymbol B \succeq 0$。

矩阵的向量化Vec：

矩阵的$\mathrm{Vec}(\boldsymbol A)$，一般是按列拉直(也可按照行拉直，根据具体情况分析)，将矩阵$\boldsymbol A$表示为排列成一个$mn \times 1$的列向量，即：

\[\mathrm{Vec}(\boldsymbol A) = [a_{11}, a_{21}, \cdots, a_{m1}, \cdots, a_{1n}, a_{2n}, \cdots, a_{mn}]^{\mathrm T} \]

定理5：$\mathrm{Vec}(\boldsymbol{xy}^{\mathrm T}) = \boldsymbol y \otimes \boldsymbol x$，$\mathrm{Vec}(\boldsymbol{A} \otimes \boldsymbol b) = \mathrm{Vec}(\boldsymbol A) \otimes \boldsymbol b$。

假定$\boldsymbol A, \boldsymbol B \in \mathbb R^{m \times n}$，则这两个矩阵乘积的迹具有如下性质：

定理6：$\mathrm{Tr}(\boldsymbol A^{\mathrm T} \boldsymbol B) = \mathrm{Vec}(\boldsymbol A)^{\mathrm T}\mathrm{Vec}(\boldsymbol B)$，$\mathrm{Tr}(\boldsymbol{ABC}) = \mathrm{Vec}(\boldsymbol A)^{\mathrm T}(\boldsymbol I_p \otimes \boldsymbol B)\mathrm{Vec}(\boldsymbol C)$，$\mathrm{Tr}(\boldsymbol{ABCD}) = \mathrm{Vec}(\boldsymbol D^{\mathrm T})^{\mathrm T}(\boldsymbol C^{\mathrm T} \otimes \boldsymbol A)\mathrm{Vec}(\boldsymbol B) = \mathrm{Vec}(\boldsymbol D^{\mathrm T})^{\mathrm T}(\boldsymbol A \otimes \boldsymbol C^{\mathrm T})\mathrm{Vec}(\boldsymbol B^{\mathrm T})$

定理7：设矩阵$\boldsymbol A \in \mathbb{C}^{m \times n}, \boldsymbol X \in \mathbb{C}^{n \times p}, \boldsymbol B \in \mathbb{C}^{p \times q}$，则有$\mathrm{Vec}(\boldsymbol{AXB}) = (\boldsymbol A \otimes \boldsymbol B^{\mathrm T}) \mathrm{Vec}(\boldsymbol X)$。

推论7：设矩阵$\boldsymbol A \in \mathbb{C}^{m \times m}, \boldsymbol X \in \mathbb{C}^{m \times n}, \boldsymbol B \in \mathbb{C}^{n \times n}$，则有$\mathrm{Vec}(\boldsymbol{AX}) = (\boldsymbol A \otimes \boldsymbol I_n) \mathrm{Vec}(\boldsymbol X)$，$\mathrm{Vec}(\boldsymbol{XB}) = (\boldsymbol I_m \otimes \boldsymbol B^{\mathrm T}) \mathrm{Vec}(\boldsymbol X)$，$\mathrm{Vec}(\boldsymbol{AX+XB}) = (\boldsymbol A \otimes \boldsymbol I_n + \boldsymbol I_m \otimes \boldsymbol B^{\mathrm T}) \mathrm{Vec}(\boldsymbol X)$。

参考26.1：矩阵Kronecker乘积性质与应用 - 豆丁
参考26.2：Kronecker积及矩阵论进阶 - 阿里多多的西瓜的文章 - 知乎第一弹、第二弹、第三弹

知识点27： 矩阵的特征值和奇异值：

设矩阵$\boldsymbol A \in \mathbb{R}^{n \times n}$，其特征值为$(\lambda_1, \lambda_2, \cdots, \lambda_n)$；

矩阵$\boldsymbol{AA}^{\mathrm T}$的特征值为$(\mu_1, \mu_2, \cdots, \mu_n)$；

矩阵$\boldsymbol A$的奇异值为$(\sigma_1, \sigma_2, \cdots, \sigma_n) = (\sqrt{\mu_1}, \sqrt{\mu_2}, \cdots, \sqrt{\mu_n})$。

知识点28： 矩阵迹的相关定义与性质

矩阵迹的定义

矩阵的迹：就是矩阵的主对角线上所有元素的和，矩阵$\boldsymbol A_{n \times n}$的迹和$\boldsymbol{AB}$的迹分别为：

\[\mathrm{Tr}(\boldsymbol A) = \sum_{i=1}^{n} a_{ii} \qquad\quad \mathrm{Tr}(\boldsymbol{AB}) = \sum_{i=1}^m \sum_{j=1}^n a_{ij}b_{ji} \]

矩阵的F范数为$||\boldsymbol A||_F = \sqrt{\sum\limits_{i=1}^m \sum\limits_{j=1}^n |a_{ij}|^2}$，F范数可以用矩阵的迹来表示：

\[||\boldsymbol A||_F = \sqrt{\mathrm{Tr}(\boldsymbol{AA}^{\mathrm T})} \]

矩阵迹的运算和性质
- 性质1：循环相乘迹不变 —— $\mathrm{Tr}(\boldsymbol{ABCD} = \mathrm{Tr}(\boldsymbol{DABC} = \mathrm{Tr}(\boldsymbol{CDAB} = \mathrm{Tr}(\boldsymbol{BCDA})$；
- 性质2：若$a$为一个实数，则有 —— $\mathrm{Tr}(a\boldsymbol{A}) = a \mathrm{Tr}(\boldsymbol{A})$；
- 性质3：矩阵的迹等于矩阵特征值的和 —— 设矩阵$\boldsymbol A$的特征值为$(\lambda_1, \cdots, \lambda_n)$，则$\mathrm{Tr}(\boldsymbol A) = \sum\limits_{i=1}^{n} a_{ii} = \sum\limits_{i=1}^{n} \lambda_{i}$
矩阵迹的求导公式

参考28.1：机器学习中常用的矩阵公式 - CSDN
参考28.2：关于矩阵迹的相关性质 - zzduang的文章 - 知乎

知识点29： 矩阵核范数的定义：

矩阵$\boldsymbol A$的核范数记为$||\boldsymbol A||_{\star}$，具体定义为：

\[||\boldsymbol A||_{\star} = \sum_{i=1}^n \lambda_i \]

其中，$\lambda_i$为矩阵$\boldsymbol A$的奇异值，也即，矩阵$\boldsymbol A$的核范数为奇异值之和。

线性代数中，向量空间的子空间的“和”与“直和”，这两个概念的区别是什么？ - 知乎
https://www.zhihu.com/question/38577398

知识点30： 半正定矩阵

半正定矩阵是数学中的一个经典概念，是指对于任意非零向量$\boldsymbol x$，都有$\boldsymbol x^{\mathrm T} \boldsymbol{Ax} \geq 0$。在实际应用中，半正定矩阵经常出现在最优化、高维数据分析、微分方程等领域中。

介绍2种常见的半正定矩阵分解方法，它们分别是Cholesky分解、特征值分解。

Cholesky分解
在Cholesky分解中，将半正定矩阵$\boldsymbol A$分解为$\boldsymbol A = \boldsymbol R^{\mathrm T} \boldsymbol R$的形式，其中$\boldsymbol R$是一个上三角矩阵。
特征值分解
在特征值分解中，将半正定矩阵$\boldsymbol A$分解为$\boldsymbol A = \boldsymbol V \boldsymbol{\Lambda} \boldsymbol V^{\mathrm T}$的形式，其中$\boldsymbol V$是$\boldsymbol A$的特征向量矩阵，$\boldsymbol \Lambda$是$\boldsymbol A$的特征值矩阵。具体而言，特征向量是指一个非零向量在线性变换下仍保持在同一方向上的向量，而特征值是指特征向量在该变换下的伸缩比率。

参考30.1：半正定矩阵性质研究论文 - 北华大学本科毕设 - 人人文库
参考30.2：第3章矩阵的分解 - PPT - 人人文库
参考30.3：半正定矩阵的性质 - 豆丁文档：同时介绍了hadamard积$A \circ B$。

知识点31： Schur补的性质

PS：这部分不少Schur补的基础知识，而是根据Schur补得到的一些性质或者推论。

给定任意的Hermition矩阵$\boldsymbol M = \left[\begin{array}{cc} \boldsymbol A & \boldsymbol B \\ \boldsymbol B^{\mathrm H} & \boldsymbol C \end{array}\right]$，则以下三个结论是等价的：

① $\boldsymbol M \succeq 0$，即矩阵$\boldsymbol M$半正定；
② $\boldsymbol A \succeq 0$，$(\boldsymbol I - \boldsymbol{AA}^{\dagger}) \boldsymbol B = 0$，$\boldsymbol C - \boldsymbol B^{\mathrm H}\boldsymbol{A}^{\dagger} \boldsymbol B \succeq 0$；
③ $\boldsymbol C \succeq 0$，$(\boldsymbol I - \boldsymbol{CC}^{\dagger}) \boldsymbol B^{\mathrm H} = 0$，$\boldsymbol A - \boldsymbol B\boldsymbol{C}^{\dagger} \boldsymbol B^{\mathrm H} \succeq 0$；

参考31.1：The Schur Complement and Symmetric Positive Semidefinite (and Definite) Matrices

一些矩阵论的系统笔记或者博客:

【1】高等代数葵花宝典
【2】线性代数与矩阵论 - 个人博客 - 老齐

posted @ 2023-03-12 10:58 博客侦探阅读(494) 评论(0) 编辑收藏举报

刷新页面返回顶部

junhengwang

矩阵论补充知识点

公告