12 Masked Self-Attention(掩码自注意力机制)
上节课回顾
《Attention is all you need》
Attention
Self-Attention(Self--》自--》QKV 同源)
句法结构,语义结构
自注意力机制明确的知道这句话有多少个单词,并且一次性给足,而掩码是分批次给,最后一次才给足
Masked(掩码) Self-Attention--》在自注意力模型上面做了改进
为什么要做这个改进:生成模型,生成单词,一个一个生成的
当我们做生成任务的时候,我们也想对生成的这个单词做注意力计算,但是,生成的句子是一个一个单词生成的
I have a dream
-
I 第一次注意力计算,只有 I
-
I have 第二次,只有 I 和 have
-
I have a
-
I have a dream
-
I have a dream <eos>
掩码自注意力机制应运而生
掩码后 1
掩码后2
未来我们讲 Transformer 的时候会详细讲!
Multi-head Self-Attention。