Unstanding LSTM

1.RNNs

　　我们可以把RNNs看成一个普通网络做多次复制后叠加在一起组合起来，每一个网络都会把输出传递到下一个网络中。

　　把RNNs按时间步上展开，就得到了下图；

　　从RNNs链状结构可以容易理解到他是和序列信息相关的。

2.长时期依赖存在的问题

　　随着相关信息和预测信息的间隔增大，RNNs很难把他们关联起来了。

　　但是，LSTMs能解决这个问题

3. LSTM网络

　　Long Short Term Memory networks(长短期记忆网络）通常叫为LSTMS。LSTMs被设计用于避免前面提到的长时期依赖，他们的本质就是能够记住很长时期的信息。

　　RNNs都是由完全相同的结构复制而成的，在普通的RNNs中，这个模块非常简单，比如仅是单一的tanh层。

　　LSTMs也有类似的结构，不过重复模块部分不是一个简单的tanh层，而是4个特殊层。

　　先定义用到的符号：

3.1 LSTMs的核心思想

　　LSTMs最关键地方在于cell，即绿色部分的状态和结构图上横穿的水平线

　　cell状态像是一条传送带，向量从cell上传过，只做了少量的线性运算，信息很容易穿过cell而不做改变(实现了长时期的记忆保留）

　　cell state 好比是一个记忆器，不断往cell输入数据，他会不断变化来记忆之前输入的信息。

　　可以看到，C_t-1到C_t经过两步，第一步是一个point wise的乘法操作，用来忘记不再需要的记忆，第二步是point wise的加操作，把X_t中有用的信息加到记忆中。

　　LSTMs通过门(gates)的结构来实现增加或者删除信息。

　　门可以实现选择性地让信息通过，通过一个sigmod神经层和一个逐点相乘的操作来实现。

　　sigmod层输出的值为0到1，表示对应信息应该被通过的权重，0表示不让通过，1表示让所有信息通过。

　　每个LSTM由3个门结构，来实现保护和控制cell状态，分别是遗忘门forget gate layer、传入门input gate layer、输出门output gate layer。

3.2逐步理解LSTM

　　3.2.1遗忘门

　　　　LSTM第一步是要决定丢弃哪些信息，这通过一个叫做forget gate layer的sigmod层实现。

　　这里出现了h_t-1，h_t-1是输出，也是来自C_t-1，不过多了一层计算，可以理解为基于C_t-1给出的预测_。

　　根据图上右边的公式，总的参数个数为s*(s+X_t的位数),可见Wf的规模是和S的大小直接相关的，s越大，虽然保存的信息越多，但是模型的参数规模也会按照平方数量上升。

　　一个根据所有上下文信息来预测下一个词的语言模型，每个cell状态都应该保存当前主语的性别(保留信息），接下来才能正确使用代词，当我们又开始描述一个新主语的时候，就用改把上文中的主语性别给忘了才对(忘记信息)

　　3.2.2传入门

　　LSTM下一步是要决定哪些新信息要加入到cell 状态中来。包括两个部分，1.把Xt中的信息转换为Ct-1一样长度的向量，这个过程就是带波浪线Ct所做的事，第二事对带波浪线的Ct进行一个信息筛选，筛选的功能是通过it和带波浪线的Ct的相乘来实现的，这和上面的ft非常相似，ft表示forget，it表示input，一个是对原有信息进行筛选，一个是对新的信息进行筛选。