多头注意力

1.原理

  

示例图片
多头注意力机制中的每个头都会处理整个输入序列,相比于单头注意力模型来说,不同之处是每个头都专注于输入的不同特征子空间,因为每个头的KV权重不同。

多头注意力机制中,每个头的输出会被拼接起来,再经过一个线性层投影到与单头注意力相同大小的输出。这样做的目的是融合不同头得到的特征信息。

示例图片
posted @ 2024-12-11 19:17  博客员626  阅读(4)  评论(0编辑  收藏  举报