2024 年 6月 8 日随笔档案 - deephub

2024年6月8日

摘要：在基于transformer的自回归语言模型（LMs）中，生成令牌的成本很高，这是因为自注意力机制需要关注所有之前的令牌，通常通过在自回归解码过程中缓存所有令牌的键值（KV）状态来解决这个问题。但是，加载所有先前令牌的KV状态以计算自注意力分数则占据了LMs的推理的大部分成本。在这篇论文中，作者提阅读全文

posted @ 2024-06-08 10:05 deephub 阅读(10) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告