ORCA：基于持续批处理的LLM推理性能优化技术详解

大语言模型(LLMs)推理过程中的批处理优化面临显著挑战，这主要源于其推理过程的迭代特性。核心问题在于批处理中的各个请求完成时间存在差异，这导致资源释放和新请求整合的复杂性显著提高，特别是在处理不同完成阶段的请求时。当批处理中序列的生成长度差异较大时，GPU资源利用率往往不够理想。如下图所示，序列1、3和4中，结束符号（EOS）之后的白色区块直观地展示了GPU资源的闲置状态，凸显了当前批处理方法的效率损失。