14 Positional Encoding (为什么 Self-Attention 需要位置编码)


厚颜无耻的要个赞

Attention

优点:

  1. 解决了长序列依赖问题
  2. 可以并行

缺点:

  1. 开销变大了

  2. 既然可以并行,也就是说,词与词之间不存在顺序关系(打乱一句话,这句话里的每个词的词向量依然不会变),即无位置关系(既然没有,我就加一个,通过位置编码的形式加)

位置编码的问题

为什么需要位置编码

位置编码怎么做的

img

具体做法

做法 1

img

做法 2

img

为什么这么做有用

pos+K=5,我在计算第 5 个单词的位置编码的时候

pos=1,k=4

pos=2,k=3

img
posted @ 2022-07-12 16:55  B站-水论文的程序猿  阅读(3577)  评论(0编辑  收藏  举报