反向传播算法
反向传播算法, Backpropagation, BP
1986年, Hinton, 深度学习之父, 和他的合作者发表了论文"Learning Representations by Back-propagating errors", 首次系统地描述了如何利用BP算法有训练神经网络. 从这一年开始, BP在有监督的神经网络算法中占着核心地位. 它描述了如何利用错误信息, 从最后一层(输出层)开始到第一个隐层, 逐步调整权值参数, 达到学习的目的.
以MLP为例说明BP的详细过程. 假设这个多层神经网络共有L层, 输入层为layer 1, 输出层为layer L, 中间的\(L-2\)层为隐层. 第\(l\)层第\(i\)个神经元的净输出(过激活函数之前的输出)为\(net^l_i\), 它的(激活)输出为\(a^l_i\). 同一层神经元使用相同的激活函数\(f^{l}(net_l)\)
BP算法从整体上来说分为两步: 前向反馈(feedforward)与反向传播(Backpropagate).
Feedforward
feedforward 的过程是指信息从输入层开始单向向前传播, 经过隐层, 最后到输出层, 得到整个网络的输出. 一句话概括就是第\(l-1\)层的输出作为第\(l\)层的输入.
输入层:
其中, \(x\)为输入的样本, 一个\(c^1\)维列向量.
隐层:
\(f^{l-1}\)为第\(l-1\)层的激活函数. \(W^l, b^l\)分别为第\(l\)层的权值矩阵与bias. \(W^l: c^l \times c^{l-1}\), \(b: c^l \times 1\)
输出层:
Backpropagation
输出层的梯度计算
错误信息指的是网络的输出与目标值的差异. 差异的大小用损失函数表示. 先考虑在单个样本\(x\)上的损失:
它是一个关于输入样本\(x\), 目标值\(y\), 和神经网络参数\(W,b\)的多变量函数.
然后根据\(J\)调整输出层layer \(L\)的参数\(W^L, b^l\). 先从单个参数开始, 一步步地从实数计算到矩阵计算. 第\(L\)层第\(i\)个神经元的权值参数为\(w^L_i\), 它的第\(j\)个值为\(w^L_{ij}\). 利用chain rule求\(J\)关于它的偏导:
\begin{equation}\label{wholechain}
\frac {\partial J}{\partial w^L_{ij}} = \frac {\partial J}{\partial net^L_{i}} \frac {\partial net^L}{\partial w^L_{ij}}
\end{equation}
\(\frac {\partial J}{\partial net^L_{i}}\)这部分用\(\delta^L_i\)表示, 称为这个神经元的敏感度, 什么对什么的敏感度呢? 错误程度对净输出\(net\)的敏感度.
\begin{equation}\label{sensitivityOfLi}
\delta^L_i = \frac {\partial J}{\partial net^L_i} = \frac {\partial J}{\partial a^L_i} \frac{\partial a^L_i}{\partial net^L_i} = \frac {\partial J}{\partial a^L_i} f{L'}(netL_i)
\end{equation}
在\(L-1\)层的输出传入\(L\)层的时候, 与\(w^L_{ij}\)相乘的值为\(a^{L-1}_j\)
\begin{equation}\label{weightOutput}
\frac {\partial net^L}{\partial w^L_{ij}} = a^{L-1}-j
\end{equation}
将\((\ref{weightOutput})\)与\((\ref{sensitivityOfLi})\)代入\((\ref{wholechain})\)得:
\begin{equation}\label{wholechain2}
\Delta w^L_{ij} = \frac {\partial J}{\partial w^L{ij}} = \delta^L_i a^{L-1}_j
\end{equation}
然后算\(b^L_i\)的偏导:
也就是说神经元的\(bias\)偏导值等于它的敏感度\(\delta\).
接下来看整个神经元的权值梯度:
然后是整个第\(L\)层的权值梯度:
隐层的梯度计算
隐层的计算比输出层要复杂一些. 先计算第\(l\)层第\(j\)个神经元的敏感度.
麻烦的一部分就是\(\frac {\partial J}{\partial a^l_j}\). 因为\(a^l_j\)会作为输入的一部分传入到下一层与它相连的所有神经元里. 因为这里是以全连接的MLP为例, 所以是\(l+1\)层的所有神经元, 若不是全连接层, 如conv层, 就不是\(l+1\)层的所有神经元.
代入上一个式子得:
这是一个很重要的式子, 因为它说明第\(l\)层的神经元敏感度与第\(l+1\)层中跟它连接的神经元敏感度的加权和成正比.
第\(l\)层的敏感度为:
\(\circ\)代表element-wise向量乘法, 例如\((a_1, a_2)\circ(b_1, b_2) = (a_1b_1, a_2b_2)\).
根据之前推导过的输出层的形式, 可以直接写出第\(l\)层的权值梯度
bias的梯度值就是当前层的敏感度:
更新参数
以上就是BP算法的核心推导过程了. # 需要记住的要点 可以看出**它的关键就在于各层神经元敏感度的计算**. 需要记住**第$l$层的神经元敏感度与第$l+1$层与之连接的神经元敏感度的加权和成正比. 比例因子为各自激活函数的导数值**, 即 $$ \delta^l = W^{l+1} \delta^{l+1} \circ {f^l}'(net^l) $$ 得到敏感度后就可以得到梯度值: $$ \Delta W^l = \delta^l {a^{l-1}}^T $$ $$ \Delta b^l = \delta^l $$
Daniel的学习笔记
浙江大学计算机专业15级硕士在读, 方向: Machine Learning, Deep Learning, Computer Vision.
blog内容是我个人的学习笔记, 由于个人水平限制, 肯定有不少错误或遗漏. 若发现, 欢迎留言告知, Thanks!