Transformer【Attention is all you need】

前言

Transfomer是一种encoder-decoder模型，在机器翻译领域主要就是通过encoder-decoder即seq2seq，将源语言(x1, x2 ... xn) 通过编码，再解码的方式映射成（y1, y2 ... ym), 之前的做法是用RNN进行encode-decoder,但是由于RNN在某一时间刻的输入是依赖于上一时间刻的输出，所以RNN不能并行处理，导致效率低效，而Transfomer就避开了RNN，因此encoder-decoder效率高。

Transformer

从一个高的角度来看Transformer，它就是将源语言转换成目标语言

打开Transformer单元，我们会发现有两个部分组成，分别是encoders单元和decoders单元

而对于encoders单元，它是由六个encoder组成的，同样decoders单元，它也是由六个decoders组成。

对于每一个encoder，它们结构都一样的，但是权重不共享，每一个encoder的结构都是由两部分组成，分别是self-attention和feed forward neural network。

Transformer的处理流程是这样的：输入数据传给self-attention，然后selft-attention计算每一个位置的与其他位置的相关性，从而获得每一个位置的输出结果，该输出结果传给FFNN，得到第一个encoder的输出z_1，z₁作为第二个encoder的输入，步骤如上，直到最后一个encoder输出 ouput。

该输出ouput，在传给decoder，大致过程和encoder一致，有些许差异，稍后分析。

具体示例：

假设输入的是两个单词：Thinking Machine, 首先对单词作embedding，然后作为第一个encoder的输入，在第一个encoder里面经过self-attention，得到zi，然后zi经过FFNN得到第一个encoder的输出ri，然后ri像embedding一样，作为第二个encoder的输入

self-attention

selft-attention的作用就是求某一位置与其他位置的相关性权重。

selft-attention执行流程：

第一步：

输入向量 embedding分别与三个权重矩阵(W^Q W^K ,W^V)相乘，得到三个向量, Queries, Keys, Values。据说三个权重矩阵(W^Q W^K ,W^V)是在训练过程中获得的，我很好奇它是怎么训练获得的。

还有就是 Queries, Keys, Values这三个向量的维度要比 embedding的维度小， Queries, Keys, Values的维度是64， embedding的维度是512。至于为什么要小，是为了便于multi-head计算

第二步：

计算每一个位置与其他位置的得分。

如图，以第一个单词Thinking为例，用q1分别与不同位置的keys向量k_i进行点积，得到与每其他位置的得分。

第三步

将得分除以 8， keys的维度平方根，paper是64。

第四步

对得分进行sotfmax

第五步：

用softmax的得分(权重）乘以对应位置的values向量，

第六步：

对加权values向量求和

以上是对于一个单词的运算过程，可以用矩阵对整个输入序列进行操作

优化Multi-head

motivation:

1、对于上面的计算过程，最后的到z1仅包含与他相关的那些位置的信息，而其他位置信息就包含的较少，Multi-headed可以覆盖到每一个位置的信息（不太理解，不就是要找到最相关的位置吗，为什么要其他的都包含呢)

2、它为attention层提供了更多的表示空间。在上面的计算过程中，都产生了一个 Queries,Keys, Values的权重矩阵，Transformer使用了八个head，每一个head相当于一个独立的子空间，在这里将随机初始化 Queries,Keys, Values的权重矩阵，所以最终会有八个权重矩阵，也就是会有八个 Queries,Keys, Values向量。