会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
鸽鸽的书房
端庄厚重,谦卑含容;戒骄戒惰,但求有恒。
博客园
首页
新随笔
联系
订阅
管理
2023年5月17日
免注意力Transformer (AFT):使用逐元素乘积而不是点积
摘要: 注意力机制作为现代深度学习模型的基石,能够毫不费力地对长期依赖进行建模,并关注输入序列中的相关信息。然而,需要点积自注意力 - 广泛使用在Transformer架构中的一个关键组件 - 已被证明在序列长度方面具有二次空间复杂度,因此不适用于处理长输入。在本文中,我们介绍了Attention Free
阅读全文
posted @ 2023-05-17 10:29 鸽鸽的书房
阅读(1455)
评论(0)
推荐(0)
编辑
公告