Mamba详细介绍和RNN、Transformer的架构可视化对比

Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。

Mamba: Linear-Time Sequence Modeling with Selective State Spaces一文中提出了Mamba,我们在之前的文章中也有详细的介绍。

在本篇文章中,通过将绘制RNN,transformer,和Mamba的架构图,并进行详细的对比,这样我们可以更详细的了解它们之间的区别。

为了说明为什么Mamba是这样一个有趣的架构,让我们先介绍Transformer。

 

https://avoid.overfit.cn/post/94105fed36de4cd981da0b916c0ced47

posted @ 2024-02-23 10:53  deephub  阅读(339)  评论(0编辑  收藏  举报