吴恩达机器学习笔记30-神经网络的反向传播算法(Backpropagation Algorithm)

之前我们在计算神经网络预测结果的时候我们采用了一种正向传播方法,我们从第一层
开始正向一层一层进行计算,直到最后一层的ℎ𝜃 (𝑥)。

现在,为了计算代价函数的偏导数我们需要采用一种反向传播算法,也就是

首先计算最后一层的误差,然后再一层一层反向求出各层的误差,直到倒数第二层。 以一
个例子来说明反向传播算法。
假设我们的训练集只有一个实例(𝑥(1), 𝑦(1)),我们的神经网络是一个四层的神经网络,
其中𝐾 = 4,𝑆𝐿 = 4,𝐿 = 4:
前向传播算法:

我们从最后一层的误差开始计算,误差是激活单元的预测( (4)
k a )与实际值(𝑦𝑘)之间的误差,(𝑘 = 1: 𝑘)。

我们用𝛿来表示误差,则:

我们利用这个误差值来计算前一层的误差:其中 𝑔′(𝑧(3))

是 𝑆 形函数的导数,

而(𝜃(3))𝑇𝛿(4)则是权重导致的误差的和。
下一步是继续计算第二层的误差: 𝛿(2) = (𝛩(2))𝑇𝛿(3) ∗ 𝑔′(𝑧(2))

因为第一层是输入变量,不存在误差。我们有了所有的误差的表达式后,便可以计算代
价函数的偏导数了,假设𝜆 = 0,即我们不做任何正则化处理时有:

重要的是清楚地知道上面式子中上下标的含义:
𝑙 代表目前所计算的是第几层。
𝑗 代表目前计算层中的激活单元的下标,也将是下一层的第𝑗个输入变量的下标。
𝑖 代表下一层中误差单元的下标,是受到权重矩阵中第𝑖行影响的下一层中的误差单元
的下标。
如果我们考虑正则化处理,并且我们的训练集是一个特征矩阵而非向量。在上面的特殊
情况中,我们需要计算每一层的误差单元来计算代价函数的偏导数。在更为一般的情况中,
我们同样需要计算每一层的误差单元,但是我们需要为整个训练集计算误差单元,此时的误
差单元也是一个矩阵,我们用𝛥𝑖𝑗
(𝑙)来表示这个误差矩阵。第 𝑙 层的第 𝑖 个激活单元受到第 𝑗
个参数影响而导致的误差。
我们的算法表示为:

即首先用正向传播方法计算出每一层的激活单元,利用训练集的结果与神经网络预测的
结果求出最后一层的误差,然后利用该误差运用反向传播法计算出直至第二层的所有误差。
在求出了𝛥𝑖𝑗
(𝑙)之后,我们便可以计算代价函数的偏导数了,计算方法如下:

posted @ 2019-02-22 21:45  NeoML  阅读(681)  评论(0编辑  收藏  举报