《神经网络和深度学习》系列文章十四：四个基本方程的证明

出处： Michael Nielsen的《Neural Network and Deep Learning》，点击末尾“阅读原文”即可查看英文原文。

本节译者：哈工大SCIR本科生王宇轩

声明：如需转载请联系wechat_editors@ir.hit.edu.cn，未经授权不得转载。

使用神经网络识别手写数字
反向传播算法是如何工作的

热身：一个基于矩阵的快速计算神经网络输出的方法
关于损失函数的两个假设
Hadamard积
反向传播背后的四个基本等式
四个基本等式的证明（选读）
反向传播算法
反向传播算法代码
为什么说反向传播算法很高效
反向传播：整体描述

改进神经网络的学习方法
神经网络能够计算任意函数的视觉证明
为什么深度神经网络的训练是困难的
深度学习

反向传播等式为我们提供了一个计算代价函数梯度的方法。下面让我们明确地写出该算法：

输入 $\text{[math]}$ :计算输入层相应的激活函数值 $\text{[math]}$ 。
正向传播：对每个 $\text{[math]}$ ，计算 $\text{[math]}$ 和 $\text{[math]}$ 。
输出误差 $\text{[math]}$ ：计算向量 $\text{[math]}$ 。
将误差反向传播：对每个 $\text{[math]}$ 计算 $\text{[math]}$
输出：代价函数的梯度为 $\text{[math]}$ 和 $\text{[math]}$

通过以上算法就能看出它为什么叫反向传播算法。我们从最后一层开始，反向计算错误向量 $\text{[math]}$ 。在神经网络中反向计算误差可能看起来比较奇怪。但如果回忆反向传播的证明过程，会发现反向传播的过程起因于代价函数是关于神经网络输出值的函数。为了了解代价函数是如何随着前面的权重和偏移改变的，我们必须不断重复应用链式法则，通过反向的计算得到有用的表达式。

练习

修改一个神经元后的反向传播
假设我们修改了正向传播网络中的一个神经元，使得该神经元的输出为 $\text{[math]}$ ，其中 $\text{[math]}$ 是一个非sigmoid函数的函数。在这种情况下我们应该怎样修改反向传播算法？
线性神经元的反向传播

假设我们在整个神经网络中用 $\text{[math]}$ 代替常用的非线性方程 $\text{[math]}$ 。重新写出这种情况下的反向传播算法。

正如我在上文中已经说过的，反向传播算法对每个训练样本 $\text{[math]}$ 计算代价函数的梯度。在实际情况中，经常将反向传播算法与诸如随机梯度下降的学习算法共同使用，在随机梯度下降算法中，我们需要计算一批训练样本的梯度。给定一小批(mini-batch) $\text{[math]}$ 个训练样本，下面的算法给出了基于这些训练样本的梯度下降学习步骤：