自动求导 (Automatic Differentiation, AD)

2021-03-04

作者：董鑫
链接：https://www.zhihu.com/question/66200879/answer/870023448
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

自动求导 (Automatic Differentiation, AD) 的课程 (CS207)，正好来回答一下。其实不只是 TensorFlow，Pytorch 这些为深度学习设计的库用到 AD，很多物理，化学等基础科学计算软件也在大量的使用 AD。而且，其实TensorFlow、Pytorch 也并非只能用于deep learning，本质上他们是一种

Tensor computation built on a tape-based autograd system --引自Pytorch

自动求导分成两种模式，一种是 Forward Mode，另外一种是 Reverse Mode。一般的机器学习库用的后一种，原因后面说。

Forward Mode

基于的就是就基本的 链式法则 chain rule,

$\begin{align} \nabla_{x}h = \sum_{i=1}^{n}{\frac{\partial h}{\partial y_{i}}\nabla y_{i}\left(x\right)}. \end{align}$

这个 Forward Mode 就是用 chain rule，像剥洋葱一样一层一层算出来

以

$f\left(x\right) = x - \exp\left(-2\sin^{2}\left(4x\right)\right).$

为例。我们可以把他的计算图画出来。

假如我要计算 $f'(\frac\pi{16})$ ，可以根据上面的图得到一个表格

那么上面这个表里，每一步我们既要算 forward 的值 $f(a)$ ，也要算 backward 的值 $f'(a)$ 。

有没有办法同时把这两个值算出来呢？

首先引入一个新的概念，二元数。二元数其实跟复数差不多，也是一种实数的推广。我们回忆一下，一个复数可以写成这样的形式：

$\begin{align} z = a + ib \ i^2=-1 \end{align}$

对于复数的理解，一个比较直观的例子就是。本来实数都是在一个实数轴（x轴）的。复部 $ib$ 相当于多了一个 y 轴出来。

那么二元数是这个亚子，

$\begin{align} z = a + \epsilon b \ \epsilon^2=0 \end{align}$

这个二元数很神奇的一个性质是，你带着他做运算，得出来的二元部 $\epsilon b$ 前面的系数，就是导数。举个栗子，我们要求

$y=\sin(x)$

我们可以把 $x=a+\epsilon b$ ，所以

$\begin{align} y & = \sin\left(a + \epsilon b\right) \\ & = \sin\left(a\right)\cos\left(\epsilon b\right) + \cos\left(a\right)\sin\left(\epsilon b\right). \end{align}$

我们把上面的三角函数展开，

$\begin{align} \sin\left(\epsilon b\right) &= \sum_{n=0}^{\infty}{\left(-1\right)^{n}\dfrac{\left(\epsilon b\right)^{2n+1}}{\left(2n+1\right)!}} = \epsilon b + \dfrac{\left(\epsilon b\right)^{3}}{3!} + \cdots = \epsilon b \ \\ \cos\left(\epsilon b\right) &= \sum_{n=0}^{\infty}{\left(-1\right)^{n}\dfrac{\left(\epsilon b\right)^{2n}}{\left(2n\right)!}} = 1 + \dfrac{\left(\epsilon b\right)^{2}}{2} + \cdots = 1. \end{align}$

得到

$\begin{align} y & = \sin\left(a\right) + \cos\left(a\right) b \epsilon. \end{align}$

可以看到，二元部 $\cos(a)$ 恰好就是原函数 $\sin(a)$ 的导数。

Reverse Mode

这个模式就比较简单和直接了。就是说，上面那个表里面，我每次只计算每个“小运算”的梯度（也是是那个图里面的每个节点），最后我再根据 chain rule 把“小运算”们的梯度串起来。其实 forward mode 和 reverse mode 并没有本质的区别，只是说，reverse mode在计算梯度先不考虑 chain rule，最后再用 chain rule 把梯度组起来。而前者则是直接就应用 chain rule 来算梯度。

下面总结一下 reverse mode 的流程：

创建计算图
计算前向传播的值及每个操作的梯度

这里没有 chain rule 的事
比如这个操作是乘法 $x_3 = x_1*x_2$，那么我们只需要把 $\frac{\partial x_3}{\partial x_2} \ \ \ 以及 \ \ \ \ \frac{\partial x_3}{\partial x_1}$ 算出来就好了

反向计算梯度从最后一个节点（操作）开始： $\overline{x}_{N} = \dfrac{\partial f}{\partial x_{N}} = 1 \ \ \ ,f=x_N$
根据 chain rule 逐层推进 $\overline{x}_{N-1} = \dfrac{\partial f}{\partial x_{N}}\dfrac{\partial x_{N}}{\partial x_{N-1}}$
假如有多条求导路径，我们要把他们加起来，例如 $\overline{x}{3} = \dfrac{\partial f}{\partial x{3}} = \dfrac{\partial f}{\partial x_{4}}\dfrac{\partial x_{4}}{\partial x_{3}} + \dfrac{\partial f}{\partial x_{5}}\dfrac{\partial x_{5}}{\partial x_{3}}$

举个栗子，我们要计算函数

$f\left(x,y\right) = xy + \exp\left(xy\right)$

在点 $a=(1,2)$ 的导数

首先还是先把计算图画出来

我们逐层的抽丝剥茧，

$\begin{align} \overline{x}{5} &= \dfrac{\partial f}{\partial x{5}} = 1\\ \overline{x}{4} &= \dfrac{\partial f}{\partial x{5}}\dfrac{\partial x_{5}}{\partial x_{4}} = 1 \cdot 1 = 1\\ \overline{x}{3} &= \dfrac{\partial f}{\partial x{4}}\dfrac{\partial x_{4}}{\partial x_{3}} + \dfrac{\partial f}{\partial x_{5}}\dfrac{\partial x_{5}}{\partial x_{3}}= 1 \cdot e^{2} + 1\cdot 1 = 1 + e^{2}\\ \overline{x}{2} &= \dfrac{\partial f}{\partial x{3}}\dfrac{\partial x_{3}}{\partial x_{2}} = \left(1 + e^{2}\right)x_{1} = 1 + e^{2} = \dfrac{\partial f}{\partial y} \\ \overline{x}{1} &= \dfrac{\partial f}{\partial x{3}}\dfrac{\partial x_{3}}{\partial x_{1}} = \left(1 + e^{2}\right)x_{2} = 2 + 2e^{2} = \dfrac{\partial f}{\partial x} \end{align}$

总结

可以很清楚的看到，在训练人工神经网络时常用的 backpropagation 也是属于 reverse mode 的。
假如我们要计算的梯度的函数是 $f:\mathbb{R}^m\rightarrow\mathbb{R}^n$

如果 n 是相对比较大的话，用 forward 比较省计算
如果 m 是相对比较大的话，用 reverse 比较省计算

posted @ 2021-03-04 15:52 秦时明月0515 阅读(957) 评论(0) 收藏举报

刷新页面返回顶部

秦时明月0515

一步两步三步。。。知其然且知其所以然。

自动求导 (Automatic Differentiation, AD)

Forward Mode

Reverse Mode

总结

公告

秦时明月0515

一步两步三步。。。 知其然且知其所以然。

自动求导 (Automatic Differentiation, AD)

Forward Mode

Reverse Mode

总结

公告

一步两步三步。。。知其然且知其所以然。