上一页 1 2 3 4 5 6 ··· 46 下一页
摘要: 原文: 从continuous batching到vLLM中的batching - 不知叫什么好的文章 - 知乎 https://zhuanlan.zhihu.com/p/688551989 阅读全文
posted @ 2024-04-04 10:32 marsggbo 阅读(2075) 评论(0) 推荐(0) 编辑
摘要: 1. Block 概览 vLLM 的一个很大创新点是将物理层面的 GPU 和 CPU 可用内存切分成若干个 block,这样可以有效降低内存碎片化问题。具体而言,vLLM 的 block 分为逻辑层面(logical)和物理层面(physical),二者之间存在映射关系。下图很好解释了两个层面 bl 阅读全文
posted @ 2024-03-23 20:48 marsggbo 阅读(3787) 评论(0) 推荐(0) 编辑
摘要: 标题党一下,顺便蹭一下 OpenAI Sora大模型的热点,主要也是回顾一下扩散模型的原理。 1. 简单理解扩散模型 简单理解,扩散模型如下图所示可以分成两部分,一个是 forward,另一个是 reverse 过程: forward:这是加噪声的过程,表示为\(q(X_{0:T})\),即在原图( 阅读全文
posted @ 2024-02-22 16:49 marsggbo 阅读(788) 评论(0) 推荐(4) 编辑
摘要: 1. Quick Start 创建如下代码,命名为 run.py from vllm import LLM, SamplingParams prompts = [ "Have you followed marsggbo in Zhihu?", "你一键三连了吗?" ] # 输入prompts sam 阅读全文
posted @ 2024-02-04 18:14 marsggbo 阅读(6809) 评论(1) 推荐(1) 编辑
摘要: 我的环境如下: nvidia-smi 显示 cuda 版本是 11.7 目前最新vllm 要求的 torch 版本是 2.1.2,该版本要求的 cuda 版本是 11.8,所以不匹配。执行安装会遇到如下错误 RuntimeError: The NVIDIA driver on your system 阅读全文
posted @ 2024-01-15 20:35 marsggbo 阅读(4563) 评论(9) 推荐(0) 编辑
摘要: 原文: https://zhuanlan.zhihu.com/p/144697348 阅读全文
posted @ 2023-12-16 16:24 marsggbo 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 论文 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale 1. Introduction 现有的 MoE 方法在正式使用场景中存在的挑战: 场景局限: 阅读全文
posted @ 2023-12-07 17:32 marsggbo 阅读(2647) 评论(0) 推荐(0) 编辑
摘要: 这个报错原因很好解决,只需要在引入包的时候调用下面的语句就可以了 import torch.fx 阅读全文
posted @ 2023-12-02 18:23 marsggbo 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 闲言碎语 我在刚开始接触 huggingface (后简称 hf) 的 transformers 库时候感觉很冗杂,比如就模型而言,有 PretrainedModel, AutoModel,还有各种 ModelForClassification, ModelForCausalLM, AutoMode 阅读全文
posted @ 2023-12-02 12:52 marsggbo 阅读(2209) 评论(0) 推荐(0) 编辑
摘要: 以下笔记参考huggingface 官方 tutorial: https://huggingface.co/learn/nlp-course/chapter6 下图展示了完整的 tokenization 流程,接下来会对每个步骤做进一步的介绍。 1. Normalization normalize 阅读全文
posted @ 2023-12-01 17:00 marsggbo 阅读(870) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 46 下一页