摘要:
下面是9种Attention机制,右边LRA表示性能,下面坐标表示速度。 Big Bird 是指小孩子才做选择的一种Attention机制,里面包含了local,global,随机多种attention机制。 Transformer是最原始的self-Attention,速度比较慢,但性能比较好。 阅读全文
摘要:
下面是9种Attention以及Attention变种的方法,其中LRA表示性能,横坐标表示运行速度,圈圈大小表示占的内存大小。 Transformer 是传统的Attention机制。 Big Bird 就是小孩子才做选择,啥都综合在一起。综合global attention, local att 阅读全文