2024 年 4月 10 日随笔档案 - deephub

2024年4月10日

摘要：在本篇文章我们将详细讨论推测解码，这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现，并看看它与原始transformer 实现相比到底能快多少。推测解码是一种“先推测后验证” (Draft-then-Verify) 的解码算法，涉及并行运行两个阅读全文

posted @ 2024-04-10 10:01 deephub 阅读(76) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告