摘要: 统一内存管理简介 最近和一个朋友聊到了统一内存管理的话题,统一内存是cuda中的一个很重要的概念,通过统一内存管理,用户可以直接使用内存,而不用在意数据在内存中位置,做到透明管理。 统—内存编程模型由CUDA6引入,从开普勒架构开始就可用,但开普勒架构和麦克斯韦架构的GPU提供的统一内存编程功能相对 阅读全文
posted @ 2024-06-29 12:52 wildkid1024 阅读(116) 评论(0) 推荐(0) 编辑
摘要: LLM后量化(PTQ)总结及原理实现 weight only per_channel:按照每个channel的方式,计算得到scale和zero参数,通过weight = weight * scale + zero的方式进行还原。 per_channel_group_wise:按照每个channel 阅读全文
posted @ 2024-06-29 12:50 wildkid1024 阅读(457) 评论(0) 推荐(0) 编辑
摘要: TRT-LLM部署流程 1. 编译trt-cpp文件 cd TensorRT-LLM/cpp/build export TRT_LIB_DIR=/usr/local/tensorrt export TRT_INCLUDE_DIR=/usr/local/tensorrt/include/ cmake 阅读全文
posted @ 2024-06-29 12:49 wildkid1024 阅读(95) 评论(0) 推荐(0) 编辑