摘要: 说明: TensorRT-LLM是NVIDIA开发的高性能推理 TensorRT-LLM 是 NVIDIA 推出的一个专门用于编译和优化大语言模型推理的综合程序库。 可在 NVIDIA GPU 上加速和优化最新的大语言模型(LLM)的推理性能。 官网地址为:https://github.com/TH 阅读全文
posted @ 2024-03-26 16:58 宝英姐姐 阅读(558) 评论(0) 推荐(0) 编辑