残差网络为什么叫残差?
由以下公式决定:
R(x) = Output - Input = H(x) - x
倒数H'(x) = R'(x) + 1,这样梯度就不会因为链式法则而逐渐消失了。
Residual Network和LSTM的关系?
LSTM也可以部分解决梯度消失的问题。