一、Recurrent Neural Network

二、Naive RNN

Naive RNN更新参数时易出现梯度消失/爆炸的问题。

Naive RNN vs LSTM
记忆更新部分的操作，Naive RNN为乘法，LSTM为加法。因此LSTM能记得更久些。
记\(\delta_c^t=\frac{\partial L}{\partial c^t}=\frac{\partial L}{\partial c^{t+1}}\frac{\partial c^{t+1}}{\partial c^t}=\delta_c^{t+1}(z^f+\cdots)\)。当\(z^f=1\)时，即使其他项很小，梯度也能够很好地传达到上一个时刻；当\(z^f=0\)时，上一个时刻的记忆不会影响当前时刻，梯度也不会回传回去。因此，\(z^f\)控制了梯度回传的衰减程度。
能有效地缓解梯度消失/爆炸问题。