03 2023 档案

摘要:首先在cpu上进行计算 #include <iostream> #include <chrono> #define DATA_LEN (100 * 1024 * 1024) inline int rnd(float x) { return static_cast<int>(x * rand() / 阅读全文
posted @ 2023-03-31 17:03 Wangtn 阅读(124) 评论(0) 推荐(0) 编辑
摘要:常量内存是在变量前面加上 __constant__,常量内存用于保存核函数执行期间不会发生变化的数据,NVIDIA向硬件提供了 64KB 的常量内存,在通常情况下,使用常量内存代替全局内存能有效的缩减内存带宽 常量内存的赋值使用 cudaMemcpyToSymbol() 函数 示例代码中我创建了一个 阅读全文
posted @ 2023-03-28 18:11 Wangtn 阅读(1140) 评论(0) 推荐(0) 编辑
摘要:checkpoint文件结构 saved_model文件结构 import tensorflow as tf def convert_model(): trained_checkpoint_prefix = '/home/tiwang/code/jupyter-notebook/DIEN/dien/ 阅读全文
posted @ 2023-03-28 14:50 Wangtn 阅读(157) 评论(0) 推荐(0) 编辑
摘要:官方那个文档上有很多中安装方法,这里采用压缩包安装,解压后直接将lib和include文件配置在环境变量里就ok了,对于c++来说是最方便的 首先下载TensorRT:https://developer.nvidia.com/tensorrt 注意安装TensorRT之前要事先装好cuda和cudn 阅读全文
posted @ 2023-03-20 14:46 Wangtn 阅读(2275) 评论(0) 推荐(0) 编辑
摘要:cuda程序在教程中多是用nvcc来进行编译,但是实际项目中cuda程序往往是和c++混在一起的,所以用cmake编译会更方便 cmake目前可以较好的支持cuda编译,本文只列出其中一种方法,仅供参考 CMakeLists.txt cmake_minimum_required(VERSION 3. 阅读全文
posted @ 2023-03-08 08:57 Wangtn 阅读(555) 评论(0) 推荐(0) 编辑
摘要:cuda大部分库函数的返回值都是cudaError_t,所以可以用一个函数来接收其他库函数的返回值,从而判断该库函数是否正常执行 这个函数可以用宏来实现 #define CHECK(call) \ do \ { \ const cudaError_t error_code = call; \ if 阅读全文
posted @ 2023-03-07 17:38 Wangtn 阅读(259) 评论(0) 推荐(0) 编辑
摘要:int gpu_count = -1; cudaGetDeviceCount(&gpu_count); std::cout << "gpu count: " << gpu_count << std::endl; 多显卡环境中设置显卡 cudaSetDevice(0) 多显卡环境下当cuda运算结束后 阅读全文
posted @ 2023-03-07 17:31 Wangtn 阅读(355) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示