2024 年 12月 7 日随笔档案 - deephub

2024年12月7日

摘要：大语言模型(LLMs)推理过程中的批处理优化面临显著挑战，这主要源于其推理过程的迭代特性。核心问题在于批处理中的各个请求完成时间存在差异，这导致资源释放和新请求整合的复杂性显著提高，特别是在处理不同完成阶段的请求时。当批处理中序列的生成长度差异较大时，GPU资源利用率往往不够理想。如下图所示，序列1 阅读全文

posted @ 2024-12-07 09:55 deephub 阅读(21) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告