12 Masked Self-Attention(掩码自注意力机制)


上节课回顾

《Attention is all you need》

Attention

img

Self-Attention(Self--》自--》QKV 同源)

句法结构,语义结构

img

自注意力机制明确的知道这句话有多少个单词,并且一次性给足,而掩码是分批次给,最后一次才给足

Masked(掩码) Self-Attention--》在自注意力模型上面做了改进

为什么要做这个改进:生成模型,生成单词,一个一个生成的

当我们做生成任务的时候,我们也想对生成的这个单词做注意力计算,但是,生成的句子是一个一个单词生成的

I have a dream

  1. I 第一次注意力计算,只有 I

  2. I have 第二次,只有 I 和 have

  3. I have a

  4. I have a dream

  5. I have a dream <eos>

掩码自注意力机制应运而生

掩码后 1

img

掩码后2

img

未来我们讲 Transformer 的时候会详细讲!

Multi-head Self-Attention。

posted @ 2022-07-12 16:53  B站-水论文的程序猿  阅读(6402)  评论(0编辑  收藏  举报