随笔分类 -  Cuda

使用方法与笔记
摘要:__launch_bounds__ 是 CUDA 编程中的一个修饰符,用于优化 GPU 内核的执行。它帮助编译器在生成代码时考虑线程块的配置,以提高执行效率。理解 __launch_bounds__ 有助于你更好地控制内核的性能,尤其是在处理大型数据集或复杂计算时。 __launch_bounds_ 阅读全文
posted @ 2024-09-07 15:36 玥茹苟 阅读(592) 评论(0) 推荐(0) 编辑
摘要:1、直接用命令查看显存占用情况附带有CUDA版本的情况 nvidia-smi路径在C:\Program Files\NVIDIA Corporation\NVSMI 首先概括一下这几个概念。其中SM(Streaming Multiprocessor)和SP(streaming Processor)是 阅读全文
posted @ 2020-10-29 15:25 玥茹苟 阅读(216) 评论(0) 推荐(0) 编辑
摘要:cuda kdtree 前言:将kdtree 查询部分移植到GPU端,在很多应用中对提高算法的执行效率很有帮助,本文使用英伟达GPU语言cuda,完成了kdtree GPU端的移植。 步骤比较简单:1、cpu端 创建kdtree; 2、迁移kdtree node 节点到GPU端;3、GPU端实现临近 阅读全文
posted @ 2020-08-07 17:37 玥茹苟 阅读(3630) 评论(2) 推荐(0) 编辑
摘要:这里对 上一篇 cuda实践3 中的代码进行修改,在block中对share memory 进行迭代。 template <int BLOCK_SIZE> __global__ void caculateShelter_cuda( float *uv_triangulation_0, float * 阅读全文
posted @ 2020-08-05 17:15 玥茹苟 阅读(192) 评论(0) 推荐(0) 编辑
摘要:share memory 使用 template <int BLOCK_SIZE> __global__ void caculateShelter_cuda( float *uv_triangulation_0, float *uv_triangulation, float *w_triangula 阅读全文
posted @ 2020-08-04 11:44 玥茹苟 阅读(170) 评论(0) 推荐(0) 编辑
摘要:内存分配: cudaMemcpy 进行主机与设备端的数据内存交换。 CUDA程序的处理流程: 从CPU拷贝数据到GPU。 调用kernel来操作存储在GPU的数据。 将操作结果从GPU拷贝至CPU。 CUDA线程分成Grid和Block两个层次: 由一个单独的kernel启动的所有线程组成一个gri 阅读全文
posted @ 2020-06-23 18:23 玥茹苟 阅读(187) 评论(0) 推荐(0) 编辑
摘要:先安装VS 在安装cuda,安装前先检查NIVIDA 显卡驱动是否正常。 安装参考:https://blog.csdn.net/anhec/article/details/86747512 测试安装 运行测试demo,打开 %CUDA_install_dir%\CUDA\v10.0\extras\d 阅读全文
posted @ 2020-06-05 17:16 玥茹苟 阅读(225) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示