2024 年 12月 14 日随笔档案 - 脂环

2024年12月14日

Fast Transformer Decoding: One Write-Head is All You Need论文阅读笔记（MQA）

摘要： Motivation & Abs 增量推理对于MHA是非常慢的（难以并行），因为重复加载大的键/值会增大内存带宽的开销。为此作者提出了multi-query attention（MQA），其中不同注意力头共享相同的键和值，减小了增量解码的内存带宽要求。MQA可以大幅提升解码的速度，同时推理质量仅有略阅读全文

posted @ 2024-12-14 16:30 脂环阅读(16) 评论(0) 推荐(0) 编辑

Loading

脂环

公告