Loading

摘要: Motivation & Abs 增量推理对于MHA是非常慢的(难以并行),因为重复加载大的键/值会增大内存带宽的开销。为此作者提出了multi-query attention(MQA),其中不同注意力头共享相同的键和值,减小了增量解码的内存带宽要求。MQA可以大幅提升解码的速度,同时推理质量仅有略 阅读全文
posted @ 2024-12-14 16:30 脂环 阅读(16) 评论(0) 推荐(0) 编辑