机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

seq2seq的用途有很多，比如机器翻译，写诗，作曲，看图写文字等等用途很广泛！该模型最早在2014年被Cho和Sutskever先后提出，前者将该模型命名为“Encoder-Decoder Model”也就是编码-解码模型，后者将其命名为“Sequence to Sequence Model”也就是序列到序列模型，两者有一些细节上的差异，但总体大致思想基本相同。

seq2seq根据字面意思来看就是序列到序列，再具体点就是输入一个序列(可以是一句话，一个图片等)输出另一个序列。这里以RNN为基础的机器翻译为例，介绍seq2seq和attention注意力机制。（seq2seq实现的方法有很多，比如MLP，CNN，RNN等）

这是机器翻译的部分数据（法语->英语）：

640?wx_fmt=jpeg

我们先了解下机器翻译的大致流程：

640?wx_fmt=jpeg

大致意思就是根据输入的文本，神经网络开始学习和记忆，这个就是所谓的Encoder编码过程；然后根据自己的记忆，把文本一一翻译出来，这个就是所谓的Decoder解码过程。

现在再让我们更进一步了解seq2seq的具体流程：

640?wx_fmt=jpeg

我来一一讲解这张图的每一个细节：

640?wx_fmt=png 这个是某个时刻t的RNN隐层单元，R，O代表里面的两个gate，下表E/D代表这个是Encoder/Decoder过程。

640?wx_fmt=png 这个在Encoder是某个时刻输入词，在Decoder是上一个预测的词。

640?wx_fmt=png 这个是Encoder的最后一个单元，里面的隐层存着记忆单元呢，Decoder需要根据Encoder的这个记忆单元隐层把帮助自己一个一个的预测词。

所以需要传到个个Decoder中。

下面这个是Decoder的核心过程，拿一次预测举例子：

640?wx_fmt=jpeg

640?wx_fmt=png 是上一个预测词，这里是fox。是上次预测完的记忆单元，是Encoder的隐藏单元。的计算方式为，g为一种方法（神经网络中一般为每个参数*W，最后求和输出。

下面公式都类似）：

640?wx_fmt=png

640?wx_fmt=png 是本次，这里是s4，的计算方式为：

640?wx_fmt=png

这是简单的理论部分，看看这个实践图吧：

Encoder

640?wx_fmt=jpeg

Decoder

640?wx_fmt=jpeg

虽然这个model是GRU，但不光是GRU，LSTM等都可以。

seq2seq就这样讲完了。下面该到注意力机制登上历史舞台！

Attention Mechanism 注意力机制

从字面意思我们能联想到自己的注意力吧。对，就是这样的。每当我们专注学习时，我们的目光会聚焦在正在学的东西上，但是我们眼前不能专注的也不是啥也看不见，仅仅是模糊而已。转移到数学分析下，就是我们专注的占得我们经历的大部分，比如给个数值0.8（满分为1），其他的模糊情景为0.01,0.03,0.07。。。总和为0.2。

这个注意力机制就是这样的！在机器翻译中，我们需要一个词一个词的翻译，当我们翻译某个词的时候，我们主要是需要这个词，而其他的词信息用的就是很少了，所以就是说网络把精力大部分放到了将要翻译的这个词了，但是其他也得照顾到，因为翻译一个词需要上下文的意思，比如单复数的写法就需要上下文吧。

你看，这个是不是和人的注意力差不多啊。这个也可以从我们生活经常做的例子来说就是你看着手机走路，你的注意力在手机上，但是你也能走路，而且还能避开各种人群(当然，撞树啥的只能怪你给手机分配的注意力太大了QAQ)。

看一下基本的流程图：

640?wx_fmt=jpeg