Attention机制）

【说在前面】本人博客新手一枚，象牙塔的老白，职业场的小白。以下内容仅为个人见解，欢迎批评指正，不喜勿喷！[认真看图][认真看图]

【补充说明】深度学习中的序列模型已经广泛应用于自然语言处理（例如机器翻译等）、语音识别、序列生成、序列分析等众多领域！

【再说一句】本文主要介绍深度学习中序列模型的演变路径，和往常一样，不会详细介绍各算法的具体实现，望理解！

一、循环神经网络RNN

1. RNN标准结构

传统神经网络的前一个输入和后一个输入是完全没有关系的，不能处理序列信息（即前一个输入和后一个输入是有关系的）。

循环神经网络RNN解决了以上问题，整体结构如图所示：

2. RNN系列结构

多对一：例如情感分析，需要多个时间步长的输入，但是只需要单个输出（即实现分类）。整体结构如图所示：

一对多：例如音乐生成，只需要单个输入（即输入类别），但是需要输出整个序列。整体结构如图所示：

多对多：例如实时分类，输入序列与输出序列的长度是一样的。整体结构如图所示：

多对多：例如机器翻译，输入序列与输出序列的长度是不一样的。整体结构如图所示：

二、长短期记忆网络LSTM

LSTM是RNN的一种变体，RNN由于梯度消失只有短期记忆，而LSTM网络通过精妙的门控制，一定程度上缓解了梯度消失的问题。

在标准RNN中，神经网络模块只有一个非常简单的结构，例如一个tanh层。整体结构如图所示：

而LSTM得神经网络模块具有不同的结构，LSTM包含遗忘门、输入门和输出门，增加了非线性的相互作用。整体结构如图所示：

三、GRU

GRU是LSTM的一种变体，也是为了解决梯度消失（即长期记忆问题）而提出来的。相较于LSTM，GRU的网络结构更加简单，且效果很好。

四、RNN/LSTM/GRU的变体结构

1. 双向循环神经网络

例如命名实体识别：判断句子中Teddy是否是人名，如果只从前面几个词是无法得知Teddy是否是人名，如果能有后面的信息就很好判断了。

双向循环神经网络中的网络单元可以是RNN、LSTM和GRU，均适用这种变体结构。

2. 深层循环神经网络

顾名思义，就是多个循环神经网络的堆叠，循环神经网络可以采用RNN、LSTM和GRU，均适用这种变体结构。

3. Seq2Seq架构：非常火热

又叫Encoder-Decoder模型，适用于输入与输出个数不一样相等的情况（即多对多的循环神经网络，适用于机器翻译等场景）。

其中，Encoder编码器和Decoder解码器可以使用RNN、LSTM和GRU，均适用这种变体结构。

同时，这种结构也可以与双向、深层的变体结构同时使用，不冲突的。

这里多提一句，例如给图像添加描述这样的应用场景，图中对应的描述为“一只猫站在椅子上”，同样可以采用Encoder-Decoder模型。

五、注意力机制

1. Seq2Seq + Attention机制介绍

需要注意到，LSTM、GRU、双向变体结构、深层变体结构和Seq2Seq变体结构，只能说一定程度上缓解了梯度消失问题。

提出问题：在做机器翻译时，专家学者们发现，在Seq2Seq结构中，Encoder把所有的输入序列都编码成一个统一的语义向量context，然后再由Decoder解码。其中，context自然也就成了限制模型性能的瓶颈，当要翻译的句子较长时，一个 context 可能存不下那么多信息。同时，只使用编码器的最后一个隐藏层状态，似乎不是很合理。

解决方案：因此，引入了Attention机制（将有限的认知资源集中到最重要的地方）。在生成 Target 序列的每个词时，用到的中间语义向量 context 是 Source 序列通过Encoder的隐藏层的加权和，而不是只用Encoder最后一个时刻的输出作为context，这样就能保证在解码不同词的时候，Source 序列对现在解码词的贡献是不一样的。例如，Decoder 在解码"machine"时，"机"和"器"提供的权重要更大一些，同样，在解码"learning"时，"学"和"习"提供的权重相应的会更大一些。

实现步骤：（1）衡量编码中第 j 阶段的隐含层状态和解码时第 i 阶段的相关性（有很多种打分方式，这里不细讲）；（2）通过相关性的打分为编码中的不同阶段分配不同的权重；（3）解码中第 i 阶段输入的语义向量context就来自于编码中不同阶段的隐含层状态的加权和。