2024 年 9月 23 日随笔档案 - 周周周文阳

2024年9月23日

摘要：原文：https://www.anyscale.com/blog/continuous-batching-llm-inference 回顾首先了解下LLM推理的最基本机制：在发起请求时，输入是一组token的序列。一般称该请求为prefix或prompt LLM推理输出一系列的token，直到获阅读全文

posted @ 2024-09-23 19:27 周周周文阳阅读(74) 评论(0) 推荐(0) 编辑

我叫周文阳

公告