多头注意力

1.原理

示例图片

多头注意力机制中的每个头都会处理整个输入序列，相比于单头注意力模型来说，不同之处是每个头都专注于输入的不同特征子空间，因为每个头的KV权重不同。

多头注意力机制中，每个头的输出会被拼接起来，再经过一个线性层投影到与单头注意力相同大小的输出。这样做的目的是融合不同头得到的特征信息。

示例图片

posted @ 2024-12-11 19:17 博客员626 阅读(4) 评论(0) 编辑收藏举报

刷新页面返回顶部