摘要: 1. Block 概览 vLLM 的一个很大创新点是将物理层面的 GPU 和 CPU 可用内存切分成若干个 block,这样可以有效降低内存碎片化问题。具体而言,vLLM 的 block 分为逻辑层面(logical)和物理层面(physical),二者之间存在映射关系。下图很好解释了两个层面 bl 阅读全文
posted @ 2024-03-23 20:48 marsggbo 阅读(3788) 评论(0) 推荐(0) 编辑