transformer

transfomer是谷歌在17年论文 Attention Is All You Need(https://arxiv.org/abs/1706.03762)里提出来的。是为了解决机器翻译问题而生的。在Attention Is All You Need这篇paper中整个模型还是采用encoder-decoder的框架，但是信息抽取器采用的是一种全新的self-attention的抽取器。

感觉现在对transfomer的定义是什么有的地方说法不太一致。 1.有的时候指的是 Attention Is All You Need 里面包括encoder-decoder在内的整个模型（这个时候一般多用于跟这篇文章中的模型结构进行比较，最新的一般只用本文模型中的encoder或者decoder中的一个）。2.有的时候指的是利用self-attention进行信息抽取的这种方法（目前还是这种说法占大多数，这种说法偏向于指特征抽取器，跟LSTM,CNN等进行对比的）。

但是无论怎么讲，transfomer的核心都是指利用self-attention来进行特征抽取的这种方法。其他的地方每个模型可能大大小小会有一些细节的差异。

注：本文中的transfomer指的是Attention Is All You Need这篇paper中encoder-cecoder整体模型

Transofomer 模型整体架构

Transofomer 模型整体架构是一个encoder-decoder架构，如下:

与传统encoder-decoder架构一样，先由encoder部分对信息进行编码，然后decoder利用这些编码后的信息进行解码。

图1： Transofomer模型整体架构

可以看到左边整体encoders是由一个个小的encoder模块堆叠而成，右边的decoders也是这样。

Encoder 模块

每个encoder模块如图2所示，由一个自注意力层和一个前馈层组成。

图2： encoder模块

假设encoder模块的输入有三个token，那么encoder中数据流动情况：

1.self-attention

transfomer模型里面最重要的部分就是self-attention，并且这篇paper最大的贡献也是提出了self-attention这种方法。下面对self-attention进行重点的讲解。

传统attention的计算

所谓的attention就是对于q、k、v三个向量，q为query，k为key，v是value。q一般是decoder中某个时间步的隐向量，k,v一般都是encoder的输出向量。先由q和每个k计算出一个score，然后做归一化，即为encoder中每个时间步的权重，然后将每个权重与对应的v相乘然后求和得到上下文向量。

由attention的到的上下文向量会随着decoder每个时间步隐向量的不同而不同，让其对encoder中的每个时间步的内容有不同的关注。

self-attention

self-attention的计算也整体框架也是这样，由q、k、v计算得来。区别就出在self上。self-attention的q、k、v都来自与自身，这使得输入的句子中的每个token可以关注到句子中的其他的token。

具体计算

self-attention里面某个token的q、k、v向量都是这个token的表示向量乘一个转换矩阵而得到的。

之所以会经过一个矩阵转换的原因：1.增加参数数量，增加模型的学习能力 2.将token映射到另一个空间 3.如果都采用他们自身的话，则q，k，v 都会是他自己。可能会出现下面的这个问题：假设token的embedding是一维的，一个句子是：2，2，3，44 则会造成无论对于哪个token来讲与44这个token的score都会是最大的，也就是说会造成token的embed ing值越大则它的权重就会越大导致强者恒强，越来越强。