2024 年 12月 5 日随笔档案 - deephub

2024年12月5日

摘要：近年来,大语言模型(LLM)在各个领域取得了显著成效。但现有的Transformer架构存在计算复杂度高、内存消耗大等问题。而状态空间模型(SSM)如Mamba虽然具有常数复杂度和优化的硬件性能,但在记忆回溯任务上表现较弱。针对这一问题,NVIDIA提出了Hymba架构,通过在同一层中结合注意力头和阅读全文

posted @ 2024-12-05 09:46 deephub 阅读(10) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告