2023 年 5月 17 日随笔档案 - 鸽鸽的书房

2023年5月17日

摘要：注意力机制作为现代深度学习模型的基石，能够毫不费力地对长期依赖进行建模，并关注输入序列中的相关信息。然而，需要点积自注意力 - 广泛使用在Transformer架构中的一个关键组件 - 已被证明在序列长度方面具有二次空间复杂度，因此不适用于处理长输入。在本文中，我们介绍了Attention Free 阅读全文

posted @ 2023-05-17 10:29 鸽鸽的书房阅读(1455) 评论(0) 推荐(0) 编辑

鸽鸽的书房

端庄厚重，谦卑含容；戒骄戒惰，但求有恒。

公告