深度学习

参考

[1] 机器学习算法简介

[2] 机器学习算法汇总

深度学习介绍

人工智能：通过软件和硬件来「模拟」和「模仿」智能人类行为的研究
机器学习：计算机识别数据模式并根据数据模式采取行动
深度学习：机器学习的子领域，是人工神经网络的另一个名字。深度学习网络模仿人类大脑感知与组织的方式，根据数据输入做出决策

环境配置

1.安装CUDA
2.安装anaconda或miniconda
3.安装GPU版Pytorch

4.安装d2l和Jupyter

注: 第3步中如果安装anaconda，则Jupyter会附加安装

问题

控制台输入 python 跳转至 Microsoft Store
解决方法：Windows设置 --> 应用 --> 应用和功能 --> 应用执行别名 --> 关闭应用安装程序(python.exe, python3.exe)

线性代数

数据类型

标量->向量->矩阵->张量

标量

标量由只有一个元素的张量表示，例如tensor(5)

向量

向量可以被视为标量值组成的列表，例如tensor([0, 1, 2, 3])
向量通常记为粗体、小写的符号(例如x, y, z)
向量的长度/向量中元素数量通常称为向量的维度

矩阵

矩阵是向量从一阶推广到二阶的结果，在代码中表示为具有两个轴的张量，例如

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

通常用粗体、大写字母来表示（例如X，Y，Z）

张量

描述具有任意数量轴的𝑛维数组的通用方法，并未要求一定要 $\geq$ 3阶。例如，向量是一阶张量，矩阵是二阶张量。
张量的维度表示张量具有的轴数。在这个意义上，张量的某个轴的维数就是这个轴的长度

注意维度一概念对于向量和张量的不同解释

“乘法”

Hadamard积，对应元素相乘，A * B
向量点积，相同位置的按元素乘积的和，torch.dot(x, y)
矩阵-向量乘法，torch.mv(A, x)
矩阵-矩阵乘法，torch.mm(A, B)

注意区分 Hadamard积和矩阵乘法

降维

如何理解指定张量沿哪一个轴来通过tensor.sum()方法求和降低维度这一功能的实际表现

在第一次看到这个方法时，令人费解的是axis这一参数该如何理解。
为了方便论述，取一个三维的张量

X = torch.arange(8).reshape(2, 2, 2)
> [
    [
      [0, 1],
      [2, 3]
    ],
    [
      [4, 5],
      [6, 7]
    ]
  ]

单轴降维

如果把一对括号括起来的部分看为一个集合，集合内元素个数就是所谓的各个维度对应的数值，上图中橙色的2表示最外层的括号内部有2个元素，绿色和蓝色的含义与此相同，所以说当axis指定0时，意思就是看外层的黄色括号，把内部的两个元素进行求和，此时如果keepdims = False也就意味着要将最外层的这一维度去掉，即下图所示

如果keepdims = True，那么将保留最外层的这一维度，即下图所示

当axis指定1时，意思就是看中间的绿色括号，把内部的2个元素进行求和，当keepdims = False时，即下图所示，

如果keepdims = True，那么将保留中间层的这一维度，即下图所示

多轴降维

核心问题是：当指定axis=(0,1)时，1是原张量的第1维度还是先对原张量的第0维度进行降维后的新张量的第1维度

验证方法很简单，只需要对比原张量按照axis=(0, 1)进行降维的结果和先对原张量的第0维进行降维，再分别对新张量的第0维和第1维降维的结果

// 原张量 X = torch.arange(8).reshape(2, 2, 2)
[
    [
      [0, 1],
      [2, 3]
    ],
    [
      [4, 5],
      [6, 7]
    ]
]

// 对第0维和第1维进行求和降维 X.sum(axis = (0, 1), keepdims = False)
[12, 16]

// 对第0维进行求和降维 
[
 [ 4,  6],
 [ 8, 10]
]

// 对上方结果对第0维(原张量的第1维)进行求和降维
[12, 16]

// 对上方结果对第1维(原张量的第2维)进行求和降维
[10, 18]

结论：从上方结果可以看出，当指定axis = (0, 1)时，0和1是针对原张量而言的，如果一定要分开来说，就是先对原张量第0维进行降维，再对降维结果的第0维(原张量的第1维)进行降维

矩阵计算-向量求导

国内外关于凹凸函数的定义略有不同，同济大学高等数学教材对函数的凹凸性定义为函数的下方图是凹集或凸集，国外的凹凸性是指函数的上方图是凹集或凸集

标量对向量求导

求导方法
对于多元函数

f (x_{1}, x_{2}, x_{3}) = x_{1}^{2} + x_{1} x_{2} + x_{2} x_{3}

$f(x_1, x_2, x_3) = x_1^2 + x_1 x_2 + x_2 x_3 \\$

$f$ 对 $x_1$ , $x_2$ , $x_3$ 的偏导分别为

{\begin{aligned} \frac{\partial f}{\partial x_{1}} & = 2 x_{1} + x_{2} \\ \frac{\partial f}{\partial x_{2}} & = x_{1} + x_{3} \\ \frac{\partial f}{\partial x_{3}} & = x_{2} \end{aligned}

$\left\{ \begin{align*} \frac{\partial f}{\partial x_1} & = 2x_1+x_2 \\\\ \frac{\partial f}{\partial x_2} & = x_1+x_3 \\\\ \frac{\partial f}{\partial x_3} & = x_2 \end{align*} \right. \\$

标量对向量求导的本质就是标量中的每个部分分别对向量中的每个元素逐个求偏导，并将结果写成向量、矩阵的形式

\frac{\partial f (x x)}{\partial x x_{3 \times 1}} = [\begin{matrix} \frac{\partial f}{\partial x_{1}} \\ \frac{\partial f}{\partial x_{2}} \\ \frac{\partial f}{\partial x_{3}} \end{matrix}] = [\begin{matrix} 2 x_{1} + x_{2} \\ x_{1} + x_{3} \\ x_{2} \end{matrix}]

$\frac{\partial f(\pmb{x})}{\partial \pmb{x}_{3\times1}} = \begin{bmatrix} \frac{\partial f}{\partial x_1}\\ \frac{\partial f}{\partial x_2}\\ \frac{\partial f}{\partial x_3}\\ \end{bmatrix} = \begin{bmatrix} 2x_1+x_2 \\ x_1+x_3 \\ x_2 \end{bmatrix}$

示例

$y = {x_1}^2 + 2{x_2}^2 \\ X = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} \\ \frac{\partial y}{\partial X} = \begin{bmatrix} 2x_1, 4x_2 \end{bmatrix}$

根据沐神的讲解，标量y表示为一个等高线，而标量y对向量X求导后的结果在代入某一点时表示一个梯度，是和等高线在该点是正交的，梯度指向值变化最大的方向
其他示例如下图所示

s u m (x) = x_{1} + x_{2} + x_{3} + \dots + x_{n} \frac{\partial}{\partial X} s u m (x) = [\begin{matrix} 1 & 1 & \dots & 1 \end{matrix}] = 1^{T}

$sum(x) = x_1 + x_2 + x_3 + \cdots + x_n \\ \frac{\partial }{\partial X}sum(x) = \begin{bmatrix} 1 & 1 & \cdots & 1 \end{bmatrix} = 1^T$

{‖ \begin{matrix} X \end{matrix} ‖}^{2} = {x_{1}}^{2} + {x_{2}}^{2} + \dots + {x_{n}}^{2} \frac{\partial}{\partial X} {‖ \begin{matrix} X \end{matrix} ‖}^{2} = [\begin{matrix} 2 x_{1} & 2 x_{2} & \dots & 2 x_{n} \end{matrix}] = 2 X^{T}

${\begin{Vmatrix} X \end{Vmatrix}}^2 = {x_1}^2 + {x_2}^2 + \cdots + {x_n}^2 \\ \frac{\partial }{\partial X}{\begin{Vmatrix} X \end{Vmatrix}}^2 = \begin{bmatrix} 2x_1 & 2x_2 & \cdots & 2x_n \end{bmatrix} = 2X^T$

向量对标量求导

Y = [\begin{matrix} y_{1} \\ y_{2} \\ y_{3} \end{matrix}] \frac{\partial Y}{\partial x} = [\begin{matrix} \frac{\partial y_{1}}{\partial x} \\ \frac{\partial y_{2}}{\partial x} \\ \frac{\partial y_{3}}{\partial x} \end{matrix}]

$Y = \begin{bmatrix} y_1 \\ y_2 \\ y_3 \end{bmatrix} \\\\ \frac{\partial Y}{\partial x} = \begin{bmatrix} \frac{\partial y_1}{\partial x} \\ \frac{\partial y_2}{\partial x} \\ \frac{\partial y_3}{\partial x} \\ \end{bmatrix}$

向量对向量求导

根据下图求导时的展开规则，求导后矩阵行数同 $Y$ 的行数，列数同 $X$ 的行数

计算图

将代码分解为操作子
将求导计算表示为一个无环图

自动求导是基于链式法则，但有2种计算模式：1.正向累积 2.反向累积(反向传递)
正向是求复合函数的值，反向是计算偏导数和梯度

线性回归模型

为了便于描述，规定场景为房价预测，即根据房屋面积和房龄预测房屋价格

四要素
Model $f_{w,b}(x) = wx + b$
Parameters $w, b$
Cost Function $J(w,b) = \frac{1}{2m} \sum \limits_{i=1} \limits^m (f_{w,b}(x^{(i)}) - y^{(i)})^2$
Objective $\mathop{minimize} \limits_{w,b} J(w, b)$

左上是model的图像,剩余两个都是代价函数,对于下方图像,很多垂直于j轴方向的平面与代价函数图像相交后会形成很多线,这些线汇聚在一起就是右上的图像

目标就是最小化代价函数

模型

在房价预测问题中，model为 $price = w_{area} \cdot area + w_{age} \cdot age + b$

采用线代代数的表示方式，对于一个样本而言，将权重 $w_i$ 置于向量 $\mathbf{w}$ 中，即 $[w_{area}, w_{age}]^\top$ 。将特征置于向量 $\mathbf{x}$ 中，即 $[area, age]^\top$ 。因此根据向量乘法可得model为 $price = \mathbf{w}^\top \mathbf{x} + b$