摘要:
原文: 从continuous batching到vLLM中的batching - 不知叫什么好的文章 - 知乎 https://zhuanlan.zhihu.com/p/688551989 阅读全文
摘要:
1. Block 概览 vLLM 的一个很大创新点是将物理层面的 GPU 和 CPU 可用内存切分成若干个 block,这样可以有效降低内存碎片化问题。具体而言,vLLM 的 block 分为逻辑层面(logical)和物理层面(physical),二者之间存在映射关系。下图很好解释了两个层面 bl 阅读全文
摘要:
标题党一下,顺便蹭一下 OpenAI Sora大模型的热点,主要也是回顾一下扩散模型的原理。 1. 简单理解扩散模型 简单理解,扩散模型如下图所示可以分成两部分,一个是 forward,另一个是 reverse 过程: forward:这是加噪声的过程,表示为\(q(X_{0:T})\),即在原图( 阅读全文
摘要:
1. Quick Start 创建如下代码,命名为 run.py from vllm import LLM, SamplingParams prompts = [ "Have you followed marsggbo in Zhihu?", "你一键三连了吗?" ] # 输入prompts sam 阅读全文
摘要:
我的环境如下: nvidia-smi 显示 cuda 版本是 11.7 目前最新vllm 要求的 torch 版本是 2.1.2,该版本要求的 cuda 版本是 11.8,所以不匹配。执行安装会遇到如下错误 RuntimeError: The NVIDIA driver on your system 阅读全文
摘要:
原文: https://zhuanlan.zhihu.com/p/144697348 阅读全文
摘要:
论文 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale 1. Introduction 现有的 MoE 方法在正式使用场景中存在的挑战: 场景局限: 阅读全文
摘要:
这个报错原因很好解决,只需要在引入包的时候调用下面的语句就可以了 import torch.fx 阅读全文
摘要:
闲言碎语 我在刚开始接触 huggingface (后简称 hf) 的 transformers 库时候感觉很冗杂,比如就模型而言,有 PretrainedModel, AutoModel,还有各种 ModelForClassification, ModelForCausalLM, AutoMode 阅读全文
摘要:
以下笔记参考huggingface 官方 tutorial: https://huggingface.co/learn/nlp-course/chapter6 下图展示了完整的 tokenization 流程,接下来会对每个步骤做进一步的介绍。 1. Normalization normalize 阅读全文