正向传播按输入层到输出层的顺序依次计算,并将计算所得中间变量进行存储,这是导致神经网络需要较大内存的原因。
方向传播从输出层到输入层顺序依次计算,利用了链式法则。所求梯度与中间变量当前值有关,这就是为什么需要保持中间变量的原因。