正向传播是为了预测结果,也就是输入数据从前到后(输入层->隐藏层->输出层)走一遍。
反向传播是为了优化结果,优化结果也就是想要降低损失函数的梯度。损失函数的梯度是由当前层的a_(L)决定的,当前层的a_(L)收到当前层的w_(L)、b_(L)以及受到前一层的a_(L-1)影响,因此要降低当前层损失函数的梯度就要往前一层走,调整前一层的权重、偏置、以及a^(L-1),然后重复这个操作。这样就是从后往前更新,也就是反向传播。