Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Gu A. and Dao T. Mamba: Linear-time sequence modeling with selective state spaces. 2023.

Mamba.

Mamba

  • S4S4D 虽然解决了 SSM 计算速度的问题, 但是有一个前提, 就是 A,B,C,D 是与时间 t 无关的. 这导致这些方法只能采取一种固定的模式取处理序列问题, 作者认为这导致 SSM 无法 text 这类强上下文关系的任务.

  • 所以如上图和上述算法所示, B,C,Δ 现在是与输入有关的了, 不同的输入会产生不同的 B,C,Δ.

  • 但是, 我们知道 A¯A,Δt 共同决定, 这就导致 A¯(x) 实际上也是与输入有关的了.

  • 而我们知道, S4, S4D 训练速度快的原因就是输出能够通过卷积的方式实现:

    y=KL(A¯,B¯,C)u+Du,KL(A,B,C):=(CB,CAB,,CAL1B).

    但是这个必须要求 A 是随着 t 不变的, 所以我们没法实现这一点.

  • 所以作者额外设计了 scan 算法, 如上图所示, 这是一种 hardware-aware 的算法, 他会把隐状态的更新放在 GPU 中速度最快的 SRAM 位置, 我看网上大多用下面这个图来说:

  • 我对这个不太感兴趣, 有兴趣的同学可以找相应的博客看看.

代码

[official-code]

posted @   馒头and花卷  阅读(45)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示