Hymba: 结合注意力头和SSM头的创新型语言模型方案

近年来,大语言模型(LLM)在各个领域取得了显著成效。但现有的Transformer架构存在计算复杂度高、内存消耗大等问题。而状态空间模型(SSM)如Mamba虽然具有常数复杂度和优化的硬件性能,但在记忆回溯任务上表现较弱。针对这一问题,NVIDIA提出了Hymba架构,通过在同一层中结合注意力头和SSM头,以实现两种架构优势的互补。

核心创新

Hymba的核心创新主要包括三个方面:

并行混合头设计:

在同一层内并行集成注意力头和SSM头
注意力机制提供高分辨率记忆回溯能力
SSM提供高效的上下文总结能力
这种设计相比Zamba和Jamba等只在不同层使用两种机制的方法更加灵活

可学习的元令牌(Meta Tokens):

在输入序列前添加可学习的元令牌
这些令牌与所有后续令牌交互
充当知识的压缩表示
提高了回溯和通用任务性能

KV缓存优化:

在层间共享KV缓存
大多数层使用滑动窗口注意力机制
显著减少了内存和计算成本

架构设计

如论文图1所示,Hymba的混合头模块包含:

https://avoid.overfit.cn/post/06def3f77bca4775a8e82a2005b2c19c

posted @ 2024-12-05 09:46 deephub 阅读(14) 评论(0) 编辑收藏举报

刷新页面返回顶部