2024 年 4月 3 日随笔档案 - deephub

2024年4月3日

摘要：分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法，它的目标是在保持 MQA 速度的同时实现 MHA 的质量。这篇文章中，我们将解释GQA的思想以及如何将其转化为代码。 GQA是在论文阅读全文

posted @ 2024-04-03 10:12 deephub 阅读(307) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告