《深度学习》笔记第二章 线性代数

第二章 线性代数

标量、向量、矩阵和张量

  • 标量:一个单独的数字就是标量,通常斜体表示标量。
  • 向量:一列数,这些数是有序排列的。一般用粗体的小写\(\mathbf{x}\)。如果每个元素都属于R,并且该向量有n个元素,那么该向量属于实数集R的n次笛卡尔乘积构成的集合,记为\(R^n\),索引这些元素时如果是一个集合\(s=\{1,2,3\}\),我们可以写成\(x_s\)
  • 矩阵:矩阵是一个二维数组,其中的每一个元素由二个索引,一般又粗体的大写变量名称。如果一个实数矩阵高度为m、宽度为n,那么我们就说\(A \in \mathbb{R}^{m \times n}\)
  • 张量:超过两维的数组,一般的,一个数组中的元素分布在若干维坐标的规则网络中,我们称为张量。一般用加粗A表示。
    转置:矩阵以对角线为轴的镜像,这条从左上角到右下角的对角线被称为主对角线。如\(A^{\top}{i,j} = A_{i,j}\)

广播:在深度学习中,我们允许矩阵和向量相加,比如\(\mathbf{C}=\mathbf{A} + b\),这里\(C_{i,j} = A_{i,j} + b_j\)

矩阵和向量相乘

矩阵乘法\(\mathbf{C}=\mathbf{A}\mathbf{B}\),具体的操作定义为\(C_{i,j}=\sum_{k}A_{i,k}B_{k,j}\)

Hadamard乘积(元素对应乘积):\(\mathbf{A} \odot \mathbf{B}\)

矩阵乘法支持分配律、结合律但是不支持交换律,然而向量支持交换律:\(x^{\top}y = y^{\top}x\)

单位矩阵和逆矩阵

单位矩阵:所有主对角线的元素都是1,而其他位置的元素都是0,记为\(\mathbf{I}\)

逆矩阵:矩阵\(\mathbf{A}\)矩阵逆记作\(\mathbf{A}^{-1}\),关系\(\mathbf{A}^{-1}\mathbf{A}=\mathbf{I}\)

线性相关和生成子空间

可以把矩阵的乘法\(\mathbf{A}\mathbf{x}=b\)可以理解为A的列向量是从原点出发的不同方向,确定有多少种方法达到向量b,x的每个元素看成我们沿着列向量走多远。这种操作称为线性组合。一组向量的线性组合是指每个向量乘以对应标量系数之后的和。确定是否有解就相当于是否在A列向量的生成子空间中,这种子空间称为A的列空间。如果\(b \in \mathbb{R}^m\),所以如果成立,至少n大于等于m,比如一个3*2的矩阵,x是2维的,那么列空间有一维是怎么都不知道走多远的,那肯定到达不了b。但是这里还有一个条件,就是矩阵内的列向量是线性无关的,不然,也不行。

线性无关:如果一组向量中任意一个向量都不能表示其他向量的线性组合,那就这组就是线性无关,否则线性相关。

所以Ax=b的充分必要条件是,如果\(b \in \mathbb{R}^m\)A矩阵至少有m个线性无关的向量。

A矩阵要有逆,必须是一个线性无关的方阵。如果相关了,那么就是奇异的

范数

范数衡量向量的大小,形式上,\(L^p\)范数定义如下:

\(||x||_p = (\sum_i|x_i|)^{1 \over p}\)

p=2为欧基里德范数,简写为||x||

p=1为绝对值求和。常作为非零元素数目的替代函数。

Frobenius范数:计算矩阵大小,\(||A||F = \sqrt{\sum_{i,j}A^2_{i,j}} =\sqrt{Tr(AA^\top)}\)(迹的计算方式)

向量的点积可以用范数表示:\(x^\top y = ||x||_2 ||y||_2 cos \theta\)

特殊类型的矩阵和向量

对角矩阵:只在主对角线上含有非零元素,其他位置都是零。用diag(v)表示。

对称矩阵:矩阵转置等于自己。

单位向量:具有单位范数的向量:\(||x||_2=1\)

正交:\(x^{\top}y=0\).如果还范数为1,就是标准正交。

正交矩阵:行向量和列向量分别标准正交\(A^\top A= AA^\top=I\),这里还可以推出\(A^\top = A^{-1}\)

矩阵分解

特征向量:与A相乘后相当于对该向量进行缩放的非零向量v,\(Av=\lambda v\),其中\(\lambda\)为对应特征值。(类似有左特征值:\(v^\top A= \lambda v ^\top\)

特征分解:\(A=V\\diag(\lambda)V^{\top}\),V是n个特征向量组成的矩阵,每一列是一个特征向量。

如果所有特征值都是正数的矩阵,称为正定矩阵(保证\(x^\top A x = 0 \rightarrow x=0\)),如果是非负数,则为半正定矩阵(\(x^\top A x \geq 0\)),同理有负定和半负定。

奇异值分解

分解为奇异向量和奇异值:

\(A=UDV^{\top}\)

U(左奇异值)可以看做是\(AA^\top\)的特征向量,V(右奇异值)可以看做是\(AA^\top\)特征向量。非零奇异值是两个奇异值。

Moore-Penrose伪逆

Moore-penrose伪逆定义:

\(A^+ = lim_{\alpha \rightarrow 0}(A^\top A + \alpha I)^{-1}A^\top\)

通常求解下面公式:

\(A^+ = VD^+U^\top\)

迹运算

迹运算返回的是矩阵对角元素的和:

\(Tr(A)=\sum A_{i,i}\)

行列式

行列式,记作det(A),是一个将方阵A映射到实数的函数,行列式等于矩阵特征值的乘积。

posted on 2022-11-28 20:26  复古猴子  阅读(113)  评论(0编辑  收藏  举报

导航