【Transformer】01-TransFormer架构解析
Transformer模型的作用:
基于seq2seq架构的transformer模型可以完成NLP领域研究的典型人物,如机器翻译,文本生成等,同时又可以构造预训练语言模型,用于不同任务的迁移学习
声明:
在接下来的架构分析中,我们将假设的Tranformer模型架构从一种语言文本到另一种语言文本的翻译工作,因为很多命名方式遵循NLP的规则,如:Embedding层
将乘坐文本嵌入层,Embedding层产生的张量成为词嵌入张良,他的最后一维将称作词向量等
transformer总体架构图:
transformer总体架构可以分为四个部分:
- 输入部分
- 输出部分
- 编码器部分
- 解码器部分
输入部分包括:
源文本嵌入层及其位置编码器
目标文本嵌入层及其位置编码器
输出部分:
线性层
softmax处理器
编码器部分:
- 由N个编码器堆叠而成
- 每个编码器层由两个子层连接结构组成
- 第一个子层连接结构包括了一个多头自注意力规范化层以及一个残差连接
- 第二个子层连接结构包括了一个前馈全连接子层和规范化层以及一个残差连接
解码器部分:
- 由N个解码器层堆叠而成
- 每个解码器由三个子层连接结构组成
- 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
- 第二层连接结构包括了一个多头注意力子层和规范化层以及一个残差连接
- 第三个子层连接结构包括了一个前馈全连接子层和规范化层以及一个残差连接