上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 77 下一页
摘要: 目录结论GPU服务器的物理内存,不能太小,否则会无法启动大模型。 CUDA Graph 录制阶段:约 4GB - 8GB + 模型权重(8bit量化qwen14 约为 15GB)+ 操作系统2-4G+python加载大模型的额外开销。 比如部署qwen14B,64GB RAM为比较安全的大小。1. 阅读全文
posted @ 2026-01-16 19:13 向着朝阳 阅读(110) 评论(0) 推荐(0)
摘要: 目录1️⃣ hidden_sizeQwen 系列举例2️⃣ dtype3️⃣ 结合公式举例✅ 总结QWEN14B GPU显存分布 KV Cache = max_model_len × batch × hidden_size × 2 × dtype 符号 含义 max_model_len 上下文长度( 阅读全文
posted @ 2026-01-16 18:24 向着朝阳 阅读(26) 评论(0) 推荐(0)
摘要: 目录最大吞吐量的“三剑客”batch 设置多大合适1️⃣ 影响 batch 大小的核心因素2️⃣ 工程经验参考表3️⃣ 结合显存计算4️⃣ 连续批 + Ray 调度策略5️⃣ 工程实践总结 最大吞吐量的“三剑客” 手段 作用 备注 1️⃣ Continuous Batching vLLM 内部把短请 阅读全文
posted @ 2026-01-16 18:15 向着朝阳 阅读(26) 评论(0) 推荐(0)
摘要: 目录1️⃣ Ray 的基本能力2️⃣ 合并策略设计a. Batch Window(时间窗口)b. Max Batch Size(最大 batch 大小)c. 优先级队列d. Batch 拆分 / 显存估算3️⃣ Ray + vLLM 合并示意4️⃣ 核心特点 好,我来详细拆解 Ray 在 AI 推理 阅读全文
posted @ 2026-01-16 16:11 向着朝阳 阅读(16) 评论(0) 推荐(0)
摘要: 目录为什么需求请求合并和分优先级1️⃣ 为什么需要 优先级队列(Priority Queue)场景示例2️⃣ 为什么需要 请求合并(Batching / Merging)a. 控制 batch 策略b. 高级调度策略3️⃣ 总结1️⃣ Ray 能做什么2️⃣ 工作流程示意3️⃣ 为什么用 Ray 而 阅读全文
posted @ 2026-01-16 16:06 向着朝阳 阅读(14) 评论(0) 推荐(0)
摘要: 目录null二、你这个场景的“硬指标”已知三、第一层:全局入口 QPS 限流(兜底)四、第二层:按上下文池限流(最重要)2048 上下文池4096 上下文池五、第三层:token 级限流(真正专业的做法)为什么 QPS 不够?Token Bucket(推荐)对你这个系统:六、第四层:用户 / 租户限 阅读全文
posted @ 2026-01-16 15:24 向着朝阳 阅读(9) 评论(0) 推荐(0)
摘要: 目录同一个模型尺寸在生产部署不同的上下文规格(max-model-len)的集群。案例。 智能客服 400QPS,峰值500QPS,每个query,平均1k token。 在高并发场景下 同一个模型尺寸在生产部署不同的上下文规格(max-model-len)的集群。 比如 max-model-len 阅读全文
posted @ 2026-01-16 13:21 向着朝阳 阅读(4) 评论(0) 推荐(0)
摘要: 目录总结一句话精确定义二、为什么它对显存影响这么大(核心原因)KV Cache 的分配方式是:三、区分三个“容易混淆”的长度概念四、举一个非常具体的例子场景请求 A请求 B五、为什么“输入很短也 OOM”?六、在生产环境的正确使用方式1️⃣ 服务端(vLLM 启动参数)2️⃣ 客户端(API 侧约束 阅读全文
posted @ 2026-01-16 12:25 向着朝阳 阅读(137) 评论(0) 推荐(0)
摘要: 目录一、背景问题:为什么“传统 batching”在 LLM 推理中失效1. Prefill 与 Decode 阶段差异巨大2. Padding 浪费极其严重二、vLLM 的核心思想:把“批”变成“流”三、Continuous Batching 的工作机制(关键原理)1. Token-Level 执 阅读全文
posted @ 2026-01-15 19:28 向着朝阳 阅读(67) 评论(0) 推荐(0)
摘要: 目录一、大模型微调数据分布(你提到的情况)二、小模型微调(MiniLM / DistilBERT 等)三、微调策略差异总结四、总结建议 不完全一样。MiniLM(或其他小模型)和 QWEN-14B 这样的超大模型在微调时对数据分布的要求是不同的,原因主要有模型容量和学习能力差异。我们来分析一下。 一 阅读全文
posted @ 2026-01-15 11:46 向着朝阳 阅读(8) 评论(0) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 77 下一页