摘要:
最近我在学习 Transformer 结构的时候,发现其中的 positional encoding 很不好理解,尤其是其中的公式,为什么要这样设计,后来上网收集各种资料,方才理解,遂于此写一篇文章进行记录 首先你需要知道,Transformer 是以字作为输入,将字进行字嵌入之后,再与位置嵌入进行 阅读全文
摘要:
Transformer 是谷歌大脑在 2017 年底发表的论文 attention is all you need 中所提出的 seq2seq 模型。现在已经取得了大范围的应用和扩展,而 BERT 就是从 Transformer 中衍生出来的预训练语言模型 这篇文章分为以下几个部分 Transfor 阅读全文