05 2023 档案

摘要:注意力机制作为现代深度学习模型的基石,能够毫不费力地对长期依赖进行建模,并关注输入序列中的相关信息。然而,需要点积自注意力 - 广泛使用在Transformer架构中的一个关键组件 - 已被证明在序列长度方面具有二次空间复杂度,因此不适用于处理长输入。在本文中,我们介绍了Attention Free 阅读全文
posted @ 2023-05-17 10:29 鸽鸽的书房 阅读(1714) 评论(0) 推荐(0) 编辑
摘要:本文为个人阅读笔记,参考《动手学深度学习》和蒲公英书《神经网络与深度学习》,两本书对RNN和attention都有简洁明了的介绍,深入浅出。 RNN回顾 循环神经网络使用隐状态ht1存储到时间步t-1的序列信息: $P\left(x_t \mid x_{t-1}, \ldots, x_1 阅读全文
posted @ 2023-05-16 21:45 鸽鸽的书房 阅读(3138) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示