2024 年 2月 20 日随笔档案 - 周周周文阳

2024年2月20日

摘要：背景 TensorRT-LLM是Nvidia官方推出的大模型推理加速框架，目前只对部分显卡型号有做定制加速。最近新出的Chat with RTX也是基于TensorRT-LLM进行的本地推理。 TensorRT-LLM支持PagedAttention、FlashAttention、SafeTenso 阅读全文

posted @ 2024-02-20 19:07 周周周文阳阅读(1194) 评论(0) 推荐(0) 编辑

我叫周文阳

公告