2024 年 6月 29 日随笔档案 - wildkid1024

2024年6月29日

摘要：统一内存管理简介最近和一个朋友聊到了统一内存管理的话题，统一内存是cuda中的一个很重要的概念，通过统一内存管理，用户可以直接使用内存，而不用在意数据在内存中位置，做到透明管理。统—内存编程模型由CUDA6引入，从开普勒架构开始就可用，但开普勒架构和麦克斯韦架构的GPU提供的统一内存编程功能相对阅读全文

posted @ 2024-06-29 12:52 wildkid1024 阅读(159) 评论(0) 推荐(0) 编辑

[LLM] LLM后量化(PTQ)总结及原理实现

摘要： LLM后量化(PTQ)总结及原理实现 weight only per_channel：按照每个channel的方式，计算得到scale和zero参数，通过weight = weight * scale + zero的方式进行还原。 per_channel_group_wise：按照每个channel 阅读全文

posted @ 2024-06-29 12:50 wildkid1024 阅读(533) 评论(0) 推荐(0) 编辑

[TRT-LLM] TRT-LLM部署流程

摘要： TRT-LLM部署流程 1. 编译trt-cpp文件 cd TensorRT-LLM/cpp/build export TRT_LIB_DIR=/usr/local/tensorrt export TRT_INCLUDE_DIR=/usr/local/tensorrt/include/ cmake 阅读全文

posted @ 2024-06-29 12:49 wildkid1024 阅读(124) 评论(0) 推荐(0) 编辑

wildkid1024

平平无奇！

公告