摘要: 在基于transformer的自回归语言模型(LMs)中,生成令牌的成本很高,这是因为自注意力机制需要关注所有之前的令牌,通常通过在自回归解码过程中缓存所有令牌的键值(KV)状态来解决这个问题。但是,加载所有先前令牌的KV状态以计算自注意力分数则占据了LMs的推理的大部分成本。 在这篇论文中,作者提 阅读全文
posted @ 2024-06-08 10:05 deephub 阅读(10) 评论(0) 推荐(0) 编辑