正向传播和反向传播

正向传播是为了预测结果，也就是输入数据从前到后（输入层->隐藏层->输出层）走一遍。

反向传播是为了优化结果，优化结果也就是想要降低损失函数的梯度。损失函数的梯度是由当前层的a_(L)决定的，当前层的a_(L)收到当前层的w_(L)、b_(L)以及受到前一层的a_(L-1)影响，因此要降低当前层损失函数的梯度就要往前一层走，调整前一层的权重、偏置、以及a^(L-1)，然后重复这个操作。这样就是从后往前更新，也就是反向传播。