《深度学习》笔记第二章线性代数

第二章线性代数

标量、向量、矩阵和张量

标量：一个单独的数字就是标量，通常斜体表示标量。
向量：一列数，这些数是有序排列的。一般用粗体的小写\(\mathbf{x}\)。如果每个元素都属于R，并且该向量有n个元素，那么该向量属于实数集R的n次笛卡尔乘积构成的集合，记为\(R^n\),索引这些元素时如果是一个集合\(s=\{1，2，3\}\)，我们可以写成\(x_s\)
矩阵：矩阵是一个二维数组，其中的每一个元素由二个索引，一般又粗体的大写变量名称。如果一个实数矩阵高度为m、宽度为n，那么我们就说\(A \in \mathbb{R}^{m \times n}\)
张量：超过两维的数组，一般的，一个数组中的元素分布在若干维坐标的规则网络中，我们称为张量。一般用加粗A表示。
转置：矩阵以对角线为轴的镜像，这条从左上角到右下角的对角线被称为主对角线。如\(A^{\top}{i,j} = A_{i,j}\)

广播：在深度学习中，我们允许矩阵和向量相加，比如\(\mathbf{C}=\mathbf{A} + b\)，这里\(C_{i,j} = A_{i,j} + b_j\)

矩阵和向量相乘

矩阵乘法：\(\mathbf{C}=\mathbf{A}\mathbf{B}\),具体的操作定义为\(C_{i,j}=\sum_{k}A_{i,k}B_{k,j}\)

Hadamard乘积(元素对应乘积)：\(\mathbf{A} \odot \mathbf{B}\)

矩阵乘法支持分配律、结合律但是不支持交换律，然而向量支持交换律：\(x^{\top}y = y^{\top}x\)

单位矩阵和逆矩阵

单位矩阵：所有主对角线的元素都是1，而其他位置的元素都是0，记为\(\mathbf{I}\)

逆矩阵：矩阵\(\mathbf{A}\)矩阵逆记作\(\mathbf{A}^{-1}\),关系\(\mathbf{A}^{-1}\mathbf{A}=\mathbf{I}\)

线性相关和生成子空间

可以把矩阵的乘法\(\mathbf{A}\mathbf{x}=b\)可以理解为A的列向量是从原点出发的不同方向，确定有多少种方法达到向量b，x的每个元素看成我们沿着列向量走多远。这种操作称为线性组合。一组向量的线性组合是指每个向量乘以对应标量系数之后的和。确定是否有解就相当于是否在A列向量的生成子空间中，这种子空间称为A的列空间。如果\(b \in \mathbb{R}^m\),所以如果成立，至少n大于等于m，比如一个3*2的矩阵，x是2维的，那么列空间有一维是怎么都不知道走多远的，那肯定到达不了b。但是这里还有一个条件，就是矩阵内的列向量是线性无关的，不然，也不行。

线性无关：如果一组向量中任意一个向量都不能表示其他向量的线性组合，那就这组就是线性无关，否则线性相关。

所以Ax=b的充分必要条件是，如果\(b \in \mathbb{R}^m\)A矩阵至少有m个线性无关的向量。

A矩阵要有逆，必须是一个线性无关的方阵。如果相关了，那么就是奇异的。

范数

范数衡量向量的大小，形式上，\(L^p\)范数定义如下：

\(||x||_p = (\sum_i|x_i|)^{1 \over p}\)

p=2为欧基里德范数，简写为||x||

p=1为绝对值求和。常作为非零元素数目的替代函数。

Frobenius范数：计算矩阵大小，\(||A||F = \sqrt{\sum_{i,j}A^2_{i,j}} =\sqrt{Tr(AA^\top)}\)（迹的计算方式）

向量的点积可以用范数表示：\(x^\top y = ||x||_2 ||y||_2 cos \theta\)

特殊类型的矩阵和向量

对角矩阵：只在主对角线上含有非零元素，其他位置都是零。用diag(v)表示。

对称矩阵：矩阵转置等于自己。

单位向量：具有单位范数的向量：\(||x||_2=1\)

正交:\(x^{\top}y=0\).如果还范数为1，就是标准正交。

正交矩阵：行向量和列向量分别标准正交\(A^\top A= AA^\top=I\)，这里还可以推出\(A^\top = A^{-1}\)

矩阵分解

特征向量：与A相乘后相当于对该向量进行缩放的非零向量v,\(Av=\lambda v\),其中\(\lambda\)为对应特征值。（类似有左特征值：\(v^\top A= \lambda v ^\top\)）

特征分解：\(A=V\\diag(\lambda)V^{\top}\),V是n个特征向量组成的矩阵，每一列是一个特征向量。

如果所有特征值都是正数的矩阵，称为正定矩阵（保证\(x^\top A x = 0 \rightarrow x=0\)），如果是非负数，则为半正定矩阵(\(x^\top A x \geq 0\))，同理有负定和半负定。

奇异值分解

分解为奇异向量和奇异值：

\(A=UDV^{\top}\)

U（左奇异值）可以看做是\(AA^\top\)的特征向量，V（右奇异值）可以看做是\(AA^\top\)特征向量。非零奇异值是两个奇异值。

Moore-Penrose伪逆

Moore-penrose伪逆定义：

\(A^+ = lim_{\alpha \rightarrow 0}(A^\top A + \alpha I)^{-1}A^\top\)

通常求解下面公式：

\(A^+ = VD^+U^\top\)

迹运算

迹运算返回的是矩阵对角元素的和：

\(Tr(A)=\sum A_{i,i}\)

行列式

行列式，记作det(A),是一个将方阵A映射到实数的函数，行列式等于矩阵特征值的乘积。

posted on 2022-11-28 20:26 复古猴子阅读(159) 评论(0) 编辑收藏举报

刷新页面返回顶部

复古猴子

《深度学习》笔记第二章线性代数

第二章线性代数

标量、向量、矩阵和张量

矩阵和向量相乘

单位矩阵和逆矩阵

线性相关和生成子空间

范数

特殊类型的矩阵和向量

矩阵分解

奇异值分解

Moore-Penrose伪逆

迹运算

行列式

公告

导航

复古猴子

《深度学习》笔记第二章 线性代数

第二章 线性代数

标量、向量、矩阵和张量

矩阵和向量相乘

单位矩阵和逆矩阵

线性相关和生成子空间

范数

特殊类型的矩阵和向量

矩阵分解

奇异值分解

Moore-Penrose伪逆

迹运算

行列式

公告

导航

《深度学习》笔记第二章线性代数

第二章线性代数