摘要: 原文:https://www.anyscale.com/blog/continuous-batching-llm-inference 回顾 首先了解下LLM推理的最基本机制: 在发起请求时,输入是一组token的序列。一般称该请求为prefix或prompt LLM推理输出一系列的token,直到获 阅读全文
posted @ 2024-09-23 19:27 周周周文阳 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 常用函数 获取模型输入节点信息 import tensorflow as tf from tensorflow.python.tools import saved_model_utils model_dir = 'model_dir' meta_graph_def = saved_model_uti 阅读全文
posted @ 2024-03-04 11:12 周周周文阳 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 背景 TensorRT-LLM是Nvidia官方推出的大模型推理加速框架,目前只对部分显卡型号有做定制加速。最近新出的Chat with RTX也是基于TensorRT-LLM进行的本地推理。 TensorRT-LLM支持PagedAttention、FlashAttention、SafeTenso 阅读全文
posted @ 2024-02-20 19:07 周周周文阳 阅读(1194) 评论(0) 推荐(0) 编辑
摘要: 介绍 当前大模型主流推理方式包括:vllm、tgi、原生transformer 回顾 目前主流大模型都是由transformer演变过来,transformer核心是attention,参考《Attention is All You Need》 ,attention核心则是3个矩阵:Query、Ke 阅读全文
posted @ 2023-12-18 11:15 周周周文阳 阅读(1759) 评论(0) 推荐(0) 编辑
摘要: 介绍 目前大模型微调主要方案是 LLaMA-Factory LLaMA-Factory中,提供了两种多卡框架:Accelerate、DeepSpeed Accelerate 依赖 accelerate==0.24.1 transformers==4.34.1 datasets==2.14.7 tik 阅读全文
posted @ 2023-12-12 15:06 周周周文阳 阅读(3948) 评论(0) 推荐(0) 编辑
摘要: 背景 当前很多开源系统都是基于k8s,而部署时会遇到组件包含mysql的情况。理想的情况下,是将mysql迁移到云上托管。但实际情况可能比较复杂,比如这个开源框架需要mysql的DML权限,但是公司DBA不提供; 而基于k8s部署mysql的问题是,这个mysql集群往往是单点的。一般mysql会依 阅读全文
posted @ 2023-09-10 15:06 周周周文阳 阅读(1414) 评论(0) 推荐(0) 编辑
摘要: 序 说到深度模型优化,可能想到最多的就是上GPU,对于CV、NLP这一类模型效果非常明显,一般RT能下降到原来的1/10。但是在实际中,会遇到一些排序类的模型 例如推荐模型DSMM、ESMM、DIN等模型,这些模型深度一般只有4、5层,上GPU后性能、RT反而下降,猜测原因可能是模型网络简单,导致反 阅读全文
posted @ 2023-08-13 23:31 周周周文阳 阅读(351) 评论(0) 推荐(0) 编辑
摘要: Transformer使用 transformer是对模型推理的预处理和后处理, 官方demo: https://github.com/kserve/kserve/tree/master/python/custom_transformer,核心代码: class ImageTransformer(M 阅读全文
posted @ 2022-07-10 00:48 周周周文阳 阅读(643) 评论(0) 推荐(0) 编辑
摘要: 基本配置 局部配置knative 在isvc anntations增加 autoscaling.knative.dev,源码位置 示例如下: apiVersion: serving.kserve.io/v1beta1 kind: InferenceService metadata: annotati 阅读全文
posted @ 2022-06-28 10:18 周周周文阳 阅读(585) 评论(0) 推荐(0) 编辑
摘要: 设置全局scale to zero的暂存时间,官方文档地址 apiVersion: v1 kind: ConfigMap metadata: name: config-autoscaler namespace: knative-serving data: scale-to-zero-pod-rete 阅读全文
posted @ 2022-06-23 10:17 周周周文阳 阅读(38) 评论(0) 推荐(0) 编辑