摘要:
在 Transformer架构记录(一)中,得到了一句话的数字表示 X,下面将 X 输入到Encoder的第一个Encoder-block中对其做进一步处理。 一个完整的Encoder-block如下图所示: 一个完整的Encoder-block由两个子模块构成,分别为Multi-Head Atte 阅读全文
摘要:
Transformer架构是2017年由google研究团队提出的一项全新的自然语言处理模型架构,首次应用于机器翻译任务中,该模型出自论文《Attention is all you need》。 有别于传统的CNN、RNN架构,Transformer摒弃以往的序列建模思想,全面采用自注意力机制。 T 阅读全文