摘要:
Transformer架构记录(一、二、三)针对Transformer的Encoder-block部分做了简要介绍,本文作为该系列的最终章,将以Decoder-block介绍结束本系列。 一个完整的Decoder-block的结构如下所示: Decoder-block与Encoder-block的差 阅读全文
摘要:
Transformer架构记录(二)中提到,整个Encoder-block的结构如下图所示: 本文聚焦上图中的Multi-Head Attention模块,即下图所示: 1. self-Attention self-Attention是理解Multi-Head Attention模块的基础,因此需要 阅读全文
摘要:
在 Transformer架构记录(一)中,得到了一句话的数字表示 X,下面将 X 输入到Encoder的第一个Encoder-block中对其做进一步处理。 一个完整的Encoder-block如下图所示: 一个完整的Encoder-block由两个子模块构成,分别为Multi-Head Atte 阅读全文
摘要:
Transformer架构是2017年由google研究团队提出的一项全新的自然语言处理模型架构,首次应用于机器翻译任务中,该模型出自论文《Attention is all you need》。 有别于传统的CNN、RNN架构,Transformer摒弃以往的序列建模思想,全面采用自注意力机制。 T 阅读全文