摘要: 原文:https://www.anyscale.com/blog/continuous-batching-llm-inference 回顾 首先了解下LLM推理的最基本机制: 在发起请求时,输入是一组token的序列。一般称该请求为prefix或prompt LLM推理输出一系列的token,直到获 阅读全文
posted @ 2024-09-23 19:27 周周周文阳 阅读(74) 评论(0) 推荐(0) 编辑