摘要: # 1. cuda-runtime-api ## 1.1 cuda-runtime 1. CUDA Runtime是封装了CUDA Driver的高级别更友好的API 2. cudaruntime需要引入cudart这个so库文件, 和`cuda_runtime.h`头文件 3. 上下文管理: - 阅读全文
posted @ 2023-09-02 17:18 silence_cho 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 1.1 c++编译 c++脚本程序写完之后,并不能直接运行,需要进行编译,转成.o文件,再链接才能运行,一般包括:预处理,汇编,编译。链接四步,如下: 预编译 把 .c源文件编译成 .ii 预处理文件 gcc -E [源文件.c] -o [自定义名.ii] 编译成汇编语言 把 .i 文件编译成 .s 阅读全文
posted @ 2023-09-02 16:50 silence_cho 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 继续整理tensorrt的学习资料,方便后续查看. (文章内容大部分摘取于网络资源) ## 1 int8量化 int8量化就是将网络的权重由float32类型缩放为int8类型,同时记录缩放的scale。为了尽可能的不丢失精度,需要采用标定图片来确定缩放的范围。 ### 1.1 int8量化原理 * 阅读全文
posted @ 2023-09-02 16:38 silence_cho 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 继续整理tensorrt的学习资料,方便后续查看. (文章内容大部分摘取于网络资源) ## 1. tensorrt插件 对于tensorrt不支持的算子,可以通过plugin插件的方式,自己实现。这里采用在pytorch中自定义一个算子,导出到onnx中,然后实现一个tensorrt plugin来 阅读全文
posted @ 2023-09-02 16:32 silence_cho 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 整理下tensorrt学习资料,方便后续查找。(文章内容大部分摘取于网络资源) # 1. tensorrt介绍 安装: https://docs.nvidia.com/deeplearning/sdk/tensorrt-install-guide/index.html tensorrt python 阅读全文
posted @ 2023-09-02 16:26 silence_cho 阅读(1282) 评论(0) 推荐(0) 编辑
摘要: 有点时间了,整理下部分学习资料,方便后续查找,先从onnx开始吧。(文章内容大部分摘取于网络资源) ### 1 onnx介绍 **ONNX的本质,是一种Protobuf格式文件。**onnx是基于protobuf来做数据存储和传输,*.proto后缀文件, 其定义是protobuf语法,类似json 阅读全文
posted @ 2023-09-02 16:14 silence_cho 阅读(602) 评论(0) 推荐(0) 编辑