Transformer 必备知识点

NNDL 学习笔记

transformer:基于多头自注意力的序列到序列的模型


  • 前馈神经网络
  • 全连接
  • ResNet残差连接
  • 层归一化
  • Softmax
  • 编码器-解码器


  • 掩蔽自注意力:通过一个掩码(Mask)来阻止每个位置选择其后面的输入信息。掩蔽自注意力 - HBU_DAVID - 博客园 (cnblogs.com)
  • 词嵌入:单词的 Embedding 有很多种方式可以获取,例如可以采用 Word2Vec、Glove 等算法预训练得到,也可以在 Transformer 中训练得到。
  • 位置编码:正余弦编码

 


10.6. 自注意力和位置编码 — 动手学深度学习 2.0.0 documentation (d2l.ai)

Transformer Architecture: The Positional Encoding - Amirhossein Kazemnejad's Blog

Transformer学习笔记一:Positional Encoding(位置编码) - 知乎 (zhihu.com)

一文读懂Transformer模型的位置编码 - 知乎 (zhihu.com)

Transformer模型详解(图解最完整版) - 知乎 (zhihu.com)


Transformer结构图比较唬人,那么多个小方块,那么多条连接线。其实拆开了看,就轻松了~

把每个小模块都研究明白了,组装起来,跟搭积木一样。

注意虚线框外面的N×,表明循环使用N次。

 

 

posted on 2022-12-13 20:49  HBU_DAVID  阅读(105)  评论(0编辑  收藏  举报

导航