会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
boke626
博客园
首页
新随笔
联系
订阅
管理
多头注意力
1.原理
多头注意力机制中的每个头都会处理整个输入序列,相比于单头注意力模型来说,不同之处是每个头都专注于输入的不同特征子空间,因为每个头的KV权重不同。
多头注意力机制中,每个头的输出会被拼接起来,再经过一个线性层投影到与单头注意力相同大小的输出。这样做的目的是融合不同头得到的特征信息。
posted @
2024-12-11 19:17
博客员626
阅读(
4
) 评论(
0
)
编辑
收藏
举报
刷新页面
返回顶部
公告