Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Gu A. and Dao T. Mamba: Linear-time sequence modeling with selective state spaces. 2023.
概
Mamba.
Mamba
- S4 和 S4D 虽然解决了 SSM 计算速度的问题, 但是有一个前提, 就是 是与时间 无关的. 这导致这些方法只能采取一种固定的模式取处理序列问题, 作者认为这导致 SSM 无法 text 这类强上下文关系的任务.
-
所以如上图和上述算法所示, 现在是与输入有关的了, 不同的输入会产生不同的 .
-
但是, 我们知道 由 共同决定, 这就导致 实际上也是与输入有关的了.
-
而我们知道, S4, S4D 训练速度快的原因就是输出能够通过卷积的方式实现:
但是这个必须要求 是随着 不变的, 所以我们没法实现这一点.
-
所以作者额外设计了 scan 算法, 如上图所示, 这是一种 hardware-aware 的算法, 他会把隐状态的更新放在 GPU 中速度最快的 SRAM 位置, 我看网上大多用下面这个图来说:
- 我对这个不太感兴趣, 有兴趣的同学可以找相应的博客看看.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?