RNN、LSTM、Char-RNN 学习系列（一）

zoerywzhou@gmail.com

作者：Zhouw

2016-3-15

转载请注明出处：http://www.cnblogs.com/swje/p/5279349.html

作者是深度学习的初学者，经由导师指导，稍微学习了解了一下RNN、LSTM的网络模型及求导，打算在这里分享一下，欢迎各种交流。

2016-03-15看到的博客、参考文档：

从NN到RNN再到LSTM（附模型描述及详细推导）——（一）NN、

从NN到RNN再到LSTM（附模型描述及详细推导）——（二）RNN、

从NN到RNN再到LSTM（附模型描述及详细推导）——（三）LSTM。

Softmax回归：http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92

反向传播算法的解释：Principles of training multi-layer neural network using backpropagation：http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html

近期的学习体会：

1、Softmax分类器：解决多分类问题。

当训练过程中，我们想要improve 某目标字符的置信度并降低其他字符的置信度时，通常的做法是使用一个交叉熵损失函数，这相当于在每个输出向量使用Softmax分类器，将下一个出现的字符的索引作为一个正确的分类。一旦损失进行了反向传播并且RNN权值得到更新，在输入相同的情况下，下一个正确的字符将会有更高的分数。

2、前向传播（Forward propagation）：依次按照时间的顺序计算一次。

反向传播（Back propagation）：从最后一个时间将累积的残差传递回来。

3、符号 " $\textstyle \nabla_{\theta_j}$ " 的含义： $\textstyle \nabla_{\theta_j} J(\theta)$ 本身是一个向量，它的第 $\textstyle l$ 个元素 $\textstyle \frac{\partial J(\theta)}{\partial \theta_{jl}}$ 是 $\textstyle J(\theta)$ 对 $\textstyle \theta_j$ 的第 $\textstyle l$ 个分量的偏导数。