循环神经网络RNN

一.简介：

1.背景：模型是由数据驱动的，模型是用来处理数据的，最常见的数据形式有：图像和数值，这些可以用CNN或传统的DNN来进行处理，注意：这些网络结构实际是对样本特征进行提取和组合，每层的输出都是独立的，也就是说每层中的特征间都无关系，因为参数不一样，就算最后进行特征组合，也是在空间位置上将这些局部特征组合成全局特征，由于我们人类认知这些样本的角度也是从全局到局部再到全局，所以这些cnn之类的网络结构可以有好的结果，但是对于一种数据，我们人类认知的角度不是全局-局部-全局，就是时序数据，我们对这些时序数据的处理是联系上下文，比如：我打开冰箱，放入大象，关上冰箱。若要预测‘关上’，若是cnn，则会从全局到局部到全局，认为‘冰箱’出现两次，大概率填‘冰箱’或和‘大象’有关的东西，肯定不是‘关上’，因为‘关上’不是它的特征，它也不能提取这些东西，对于这种数据，人类是联系上下文，前面有‘打开冰箱’这个动作，那‘冰箱’的状态是‘开’，那对应到后面，就应该冰箱的状态变为‘关’。即：对于时序模型，cnn是根据全局特征'冰箱'或局部特征‘大象’来进行预测，而rnn是根据上下文环境状态‘打开’来进行预测。

2.时序数据：一组数据表现事物状态的变化，即数据前后有关联，比如：音乐、文本、视频、序列...

3.RNN（Recurrent Neural Network）循环神经网络：

（1）名字由来：‘神经网络’表示这是遵循神经网络结构的：有一个输入层、若干隐藏层和一个输出层，每层有若干神经元，层与层之间有联系；而循环表示其中是有某样东西是重复使用的，即神经元---cell，而常规神经网络中神经元是各不相同的--因为参数不一样；

（2）cell：神经元/单元/元件/细胞，一个有输入和输出的小组件，与常规神经网络中神经元概念类似，不同的是，在RNN中：【1】一个神经元不仅接收输入值，还接收其他的值作为输入，比如状态值--state；【2】一个神经元不仅能得到输出值，还输出新的状态值；【3】同一层的各个神经元的标准输入权重参数U、状态输入参数W、标准输出权重参数V一样（权重共享）；【4】每个cell只与一个输入序列直接关联

其中：f和g为激活函数，可以添加偏置b，x和state一般为一个向量

（3）RNN的一层：由一个cell循环组成，上标（i）表示某一层第i个神经元。注意：单次一层的全部输出为一个样本，即X【x(1),x(2),x(3)...】，而不是单个x(i)，而单个的x(i)一般是一个向量，代表一个样本中的某个属性，而若X为序列数据，则表示x(i)和x(j)有关联，所以x(i)的输入是有顺序的，所以我们又将x(i)的输入称为不同时间步的输入，每时间步的状态由前几次的状态和该次的输入共同决定，状态state存储了之前输入的信息，也被成为网络的记忆。

（4）RNN常见模式：RNN的本质是循环使用神经单元，并且常处理的是序列数据，默认神经元之间是有关联的。但是根据输入和输出要求不同，RNN具体分为以下几种模式

【1】1:1单对单：每个cell接收一个输入，输出一个输出，而且这个输出一般是下一个cell的输入，也就是说每次传入的样本对应初始的x

【【例】】唐诗生成：对于每句唐诗，先将其转化为数学形式，每个词对应一个向量，每句唐诗对应一个矩阵，输入唐诗第一个词向量，预测生成下一个词向量，与唐诗标签作损失，再利用这个生成的词向量，将其作为第二个cell的输入，又得到对第三个词的预测，依次下去...唐诗生成实则是对一个个cell进行单个输入并输出单个值，每个cell的输入间无序列关系，每个输出之间有关联，所以可以看作1：1，当然要说它是其他的模式也可以，并无严格规定。

【2】1:n单对多：每层接收一个输入，即一层上所有cell接收同一个输入，输出多个值，常用于生成数据，如：类别/单样本生成序列数据（语言句词、语音）

【【例】】图像生成标题：先将图像提取特征，变成语义向量，再将这个语义向量输入到每个cell中，得到若干值，与样本标签向量作损失

【3】n:1多对单：输入一个序列数据，输出的是单个的值，而不是一组序列值，常用于分类、预测

【【例】】情感分析、股票预测、标题生成图像、文本分类、情感分析、类别判定...

【4】n:n多对多：一组序列数据输出一组同样长度的序列数据，常用于等长序列的变换

【5】m:n多对多：输入和输出的序列是不同长度的，是不定长的，常用于机器翻译、阅读理解、文本摘要、语言识别

【6】m:n的变体：也就是编码-解码结构、一些变体，比如注意力机制、transformer等

二.原理

1.记忆性：每个cell的计算：每个cell先根据传入的值--前个cell的状态和当前cell的输入值，计算当前的状态值s‘，再根据实际需求判断是否要根据状态计算输出值。其中state表示前面时间步的信息集合，state使得每个cell间有了关联，当前cell的信息包含了前面输入的信息和当前输入的信息，也就是说，网络中的cell有了记忆功能。

2.提取特征：权重共享：

（1）减少参数量

（2）类似CNN，CNN中使用卷积核进行特征提取，增加在不同大小图像上的适用性，RNN中每个时间步都在做同一件事，也就是说，通过权重共享，cell对序列数据进行了特征提取

（3）权重共享可以使模型接收不定长数据

三.模型训练和推理

1.前向计算：计算时，由于要使用到上个cell计算输出的state，所以前向计算是一步一步来的

（1）输入：根据具体问题使用具体的RNN模式，一般若是输入序列数据，会设定最大序列长度l，过长的样本剪切，过段的样本占位补齐，每个序列元素的长度C，样本数N，此时输入为一个三维张量

（2）输出：根据具体问题使用具体的RNN模式，有时输出是一个值--使用softmax，有时是一个向量，再加上N这个维度

2.损失计算：将输出与标签作损失，根据需求使用不同的损失函数，各个输出的损失相加

3.反向更新参数：

（1）计算梯度：由于参数共享的机制，RNN模型损失函数的表达式明显是复合函数，也就是说，计算某个时间步的梯度需要计算当前时间步的梯度，还需要计算之前每个时间步的梯度，即：某个时间步的梯度为之前及此刻所有时刻的梯度之和，而又要计算所有损失的梯度，再对所有时间步的梯度相加

如y = x+x^2+x^3 实际需要计算三次梯度，再将这三次梯度相加，得到最终的梯度

（2）所有时刻结束后更新参数U、W、V

4.推断：输入测试样本，得到输出值

四.重要的点

1.特点：能较好的提取时间序列的特征、网络包含记忆性、权重共享

2.缺陷：

（1）梯度消失：和深层神经网络类似，RNN中也存在连乘偏导，sigmoid函数会加快梯度消失，而tanh比sigmoid好一些，可以用tanh，其次，梯度消失并不直接作用于使得参数无法更新，而是使得参数更新的梯度并不是最优梯度，导致模型不能收敛到最优解，因为计算的梯度是前各个时刻的梯度之和，总归在临近几层，梯度存在，而较远时刻的梯度会消失，导致最终更新的梯度只是部分梯度，也就是，模型最后可能只有短期记忆

（2）梯度爆炸：一样存在，而且由于权重累乘，比bp神经网络更明显，因为RNN权重共享，并不像常规神经网络那样，有几率相互抵消，所以程序会出现数值溢出等情况

（3）RNN设计出来的目的是为了处理时间序列模型，若传入非完全存在时间关联的数据，它的效果有待讨论。

（4）RNN的训练依赖状态的向后传播，神经元之间有直接联系，所以一般难以像传统网络那样并行计算，比如CNN设定的是特征间独立

3.其他注意点

（1）一般用RNN来处理时间序列数据，但并不是表示其他模型不能处理时间序列模型，而且RNN也可以处理非序列模型

五.RNN及其变种

1.RNN：循环使用某个组件cell，权重共享、网络具有记忆性

2.Bidirectional RNN双向RNN：考虑上下文

（1）简述：传统RNN实际上对某个时刻进行输出时，参考的是之前输入的信息，但是可能之后的信息对该时刻有影响，也就是，对某个时刻进行输出时，要联系上下文

（2）对比RNN的改进：在RNN中只有从前往后的state传递，而BiRNN在原隐藏层还设置了一个从后往前的state，这样某个时刻的输出y就依赖于此刻输入+此刻之前的信息state+此刻之后的信息state‘

3.LSTM（Long Short-Term Memory）长短期记忆网络

（1）简述：由于RNN存在梯度消失的问题（梯度传到很远之前的时刻会消失），所以RNN实际上只有短期记忆，所以LSTM希望通过加入对长期记忆的注重来使模型考虑更多的信息，有效减缓梯度消失；改进了简单的cell结构，使用门结构来构建细胞的长期依赖，具体的指构建一个长期state来尽可能存储序列数据的信息，也就是说，本来RNN中存在一个state试图记忆当前时刻之前的所有信息，但是由于梯度消失，这个state只能记忆此刻之前的短期信息，并未达到记忆很远之前信息的效果，因此，引入一个记忆长期信息的state，达到原来想要的效果，也就是LSTM。

（2）对比RNN：引入了长期记忆细胞

https://www.jianshu.com/p/9dc9f41f0b29

【1】遗忘门--长期记忆：决定长期记忆的信息保留多少，使用sigmoid函数，和输入+短期记忆有关

【2】更新门--长期记忆：决定当前时刻哪些信息需要被长期记忆，先将当前+短期的信息使用tanh转为长期记忆信息，使用sigmoid决定这些信息有多少被加入原长期记忆中，得到新的长期记忆，输出

【3】输出门--短期记忆和输出：将更新后的长期记忆使用tanh作变换为短期记忆，再根据当前+短期的信息使用sgmoid决定输出多少短期记忆或输出

（3）激活函数

【1】sigmoid：输出为0~1，常用于信息的保留多少

【2】tanh：输出为-1~1，常用于信息的转换，使对信息的处理，也有缩放数据的意思

4.GRU：

（1）简介：GRU更像是LSTM的改进，将长期和短期两个状态，变成一个状态，同时存储长期和短期状态，通过门结构，减缓了RNN中的梯度消失，所以更简单，而且有效，而LSTM相对来说更加强大

（2）对比LSTM：GRU效果不差，而且模型简单，易于训练，变成了两个门，重置门和更新门都是用来用于控制作用，使用sigmoid函数，将输入和状态进行转换，用门决定是否要更新记忆细胞的信息，决定什么时候更新

【1】重置门：根据重置门，对状态和输入进行处理（保留之前状态多少信息+现有信息），使用tanh，重置了当前时刻的state信息

【2】更新门：根据更新门，对当前时刻state信息和之前时刻传入的state信息相结合，通过更新们的sigmoid值，进行权重相加，输出此刻及之前所有时刻的state信息

六.相关应用

常用于涉及序列相关的数据的任务，如：语音识别、机器翻译等，也可用于常规任务。

posted on 2020-11-05 10:21 温润有方阅读(495) 评论(0) 编辑收藏举报