周周周文阳 - 博客园

2024年9月23日

摘要：原文：https://www.anyscale.com/blog/continuous-batching-llm-inference 回顾首先了解下LLM推理的最基本机制：在发起请求时，输入是一组token的序列。一般称该请求为prefix或prompt LLM推理输出一系列的token，直到获阅读全文

posted @ 2024-09-23 19:27 周周周文阳阅读(74) 评论(0) 推荐(0) 编辑

2024年3月4日

【TensorFlow】分析模型常用函数

摘要：常用函数获取模型输入节点信息 import tensorflow as tf from tensorflow.python.tools import saved_model_utils model_dir = 'model_dir' meta_graph_def = saved_model_uti 阅读全文

posted @ 2024-03-04 11:12 周周周文阳阅读(6) 评论(0) 推荐(0) 编辑

2024年2月20日

【LLMOps】Triton + TensorRT-LLM部署QWen

摘要：背景 TensorRT-LLM是Nvidia官方推出的大模型推理加速框架，目前只对部分显卡型号有做定制加速。最近新出的Chat with RTX也是基于TensorRT-LLM进行的本地推理。 TensorRT-LLM支持PagedAttention、FlashAttention、SafeTenso 阅读全文

posted @ 2024-02-20 19:07 周周周文阳阅读(1194) 评论(0) 推荐(0) 编辑

2023年12月18日

【LLMOps】vllm加速机制及推理不一致根因剖析

摘要：介绍当前大模型主流推理方式包括：vllm、tgi、原生transformer 回顾目前主流大模型都是由transformer演变过来，transformer核心是attention，参考《Attention is All You Need》，attention核心则是3个矩阵：Query、Ke 阅读全文

posted @ 2023-12-18 11:15 周周周文阳阅读(1759) 评论(0) 推荐(0) 编辑

2023年12月12日

【LLMOps】Accelerate & DeepSpeed使用及加速机制剖析

摘要：介绍目前大模型微调主要方案是 LLaMA-Factory LLaMA-Factory中，提供了两种多卡框架：Accelerate、DeepSpeed Accelerate 依赖 accelerate==0.24.1 transformers==4.34.1 datasets==2.14.7 tik 阅读全文

posted @ 2023-12-12 15:06 周周周文阳阅读(3948) 评论(0) 推荐(0) 编辑

2023年9月10日

【k8s】k8s构建mysql双主集群

摘要：背景当前很多开源系统都是基于k8s，而部署时会遇到组件包含mysql的情况。理想的情况下，是将mysql迁移到云上托管。但实际情况可能比较复杂，比如这个开源框架需要mysql的DML权限，但是公司DBA不提供；而基于k8s部署mysql的问题是，这个mysql集群往往是单点的。一般mysql会依阅读全文

posted @ 2023-09-10 15:06 周周周文阳阅读(1414) 评论(0) 推荐(0) 编辑

2023年8月13日

【Tensorflow】深度模型推理性能优化-初步

摘要：序说到深度模型优化，可能想到最多的就是上GPU，对于CV、NLP这一类模型效果非常明显，一般RT能下降到原来的1/10。但是在实际中，会遇到一些排序类的模型例如推荐模型DSMM、ESMM、DIN等模型，这些模型深度一般只有4、5层，上GPU后性能、RT反而下降，猜测原因可能是模型网络简单，导致反阅读全文

posted @ 2023-08-13 23:31 周周周文阳阅读(351) 评论(0) 推荐(0) 编辑

2022年7月10日

【kserve】transformer使用以及predictor所包含的接口

摘要： Transformer使用 transformer是对模型推理的预处理和后处理，官方demo: https://github.com/kserve/kserve/tree/master/python/custom_transformer，核心代码: class ImageTransformer(M 阅读全文

posted @ 2022-07-10 00:48 周周周文阳阅读(643) 评论(0) 推荐(0) 编辑

2022年6月28日

【kserve】常见问题及配置

摘要：基本配置局部配置knative 在isvc anntations增加 autoscaling.knative.dev，源码位置示例如下: apiVersion: serving.kserve.io/v1beta1 kind: InferenceService metadata: annotati 阅读全文

posted @ 2022-06-28 10:18 周周周文阳阅读(585) 评论(0) 推荐(0) 编辑

2022年6月23日

【knative】常用操作

摘要：设置全局scale to zero的暂存时间，官方文档地址 apiVersion: v1 kind: ConfigMap metadata: name: config-autoscaler namespace: knative-serving data: scale-to-zero-pod-rete 阅读全文

posted @ 2022-06-23 10:17 周周周文阳阅读(38) 评论(0) 推荐(0) 编辑

我叫周文阳

公告