Transformer模型

Transformer

transformer里面重要的思想

attention

就是注意力机制self-attention,还有多头注意力机制 这个可以看之前的推导

position embedding

使用位置编码表示序列的顺序
到目前为止,我们对模型的描述缺少了一种理解输入单词顺序的方法。

为了解决这个问题,Transformer为每个输入的词嵌入添加了一个向量。这些向量遵循模型学习到的特定模式,这有助于确定每个单词的位置,或序列中不同单词之间的距离。这里的直觉是,将位置向量添加到词嵌入中使得它们在接下来的运算中,能够更好地表达的词与词之间的距离。龙心尘

http://jalammar.github.io/illustrated-transformer/

posted @ 2020-04-25 10:47  高文星星  阅读(257)  评论(0编辑  收藏  举报