2024 年 6月 26 日随笔档案 - ZacksTang

2024年6月26日

LLM 推理 - Nvidia TensorRT-LLM 与 Triton Inference Server

摘要： 1. LLM 推理 - TensorRT-LLM 与 Triton Inference Server 随着LLM越来越热门，LLM的推理服务也得到越来越多的关注与探索。在推理框架方面，tensorrt-llm是非常主流的开源框架，在Nvidia GPU上提供了多种优化，加速大语言模型的推理。但是，t 阅读全文

posted @ 2024-06-26 19:38 ZacksTang 阅读(2090) 评论(1) 推荐(2) 编辑

ZacksTang

公告