会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
山竹果 BLOG
see more
首页
新随笔
联系
订阅
管理
2020年8月6日
稀疏注意力 | Big Bird: Transformers for Longer Sequences
摘要: 参考:「芝麻街」Big Bird : Sparse Attention 再填新成员 背景: 原来的注意力机制复杂度高,q需要和每个key点乘,复杂度是n*n。 存在内存问题,自然也就存在token长度限制。 full attention -> small attention ? big bird =
阅读全文
posted @ 2020-08-06 15:37 山竹小果
阅读(1366)
评论(0)
推荐(0)
编辑
公告