Transformer模型

Transformer

transformer里面重要的思想

就是注意力机制self-attention，还有多头注意力机制这个可以看之前的推导

使用位置编码表示序列的顺序
到目前为止，我们对模型的描述缺少了一种理解输入单词顺序的方法。

为了解决这个问题，Transformer为每个输入的词嵌入添加了一个向量。这些向量遵循模型学习到的特定模式，这有助于确定每个单词的位置，或序列中不同单词之间的距离。这里的直觉是，将位置向量添加到词嵌入中使得它们在接下来的运算中，能够更好地表达的词与词之间的距离。龙心尘

posted @ 2020-04-25 10:47 高文星星阅读(257) 评论(0) 编辑收藏举报

刷新页面返回顶部