摘要: 下面是9种Attention机制,右边LRA表示性能,下面坐标表示速度。 Big Bird 是指小孩子才做选择的一种Attention机制,里面包含了local,global,随机多种attention机制。 Transformer是最原始的self-Attention,速度比较慢,但性能比较好。 阅读全文
posted @ 2022-04-01 11:14 CrescentTing 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 下面是9种Attention以及Attention变种的方法,其中LRA表示性能,横坐标表示运行速度,圈圈大小表示占的内存大小。 Transformer 是传统的Attention机制。 Big Bird 就是小孩子才做选择,啥都综合在一起。综合global attention, local att 阅读全文
posted @ 2022-04-01 07:27 CrescentTing 阅读(154) 评论(0) 推荐(0) 编辑