摘要: 背景 TensorRT-LLM是Nvidia官方推出的大模型推理加速框架,目前只对部分显卡型号有做定制加速。最近新出的Chat with RTX也是基于TensorRT-LLM进行的本地推理。 TensorRT-LLM支持PagedAttention、FlashAttention、SafeTenso 阅读全文
posted @ 2024-02-20 19:07 周周周文阳 阅读(1194) 评论(0) 推荐(0) 编辑