摘要: 参考:「芝麻街」Big Bird : Sparse Attention 再填新成员 背景: 原来的注意力机制复杂度高,q需要和每个key点乘,复杂度是n*n。 存在内存问题,自然也就存在token长度限制。 full attention -> small attention ? big bird = 阅读全文
posted @ 2020-08-06 15:37 山竹小果 阅读(1335) 评论(0) 推荐(0) 编辑