随笔分类 - Cuda

使用方法与笔记

摘要：__launch_bounds__ 是 CUDA 编程中的一个修饰符，用于优化 GPU 内核的执行。它帮助编译器在生成代码时考虑线程块的配置，以提高执行效率。理解 __launch_bounds__ 有助于你更好地控制内核的性能，尤其是在处理大型数据集或复杂计算时。 __launch_bounds_ 阅读全文

posted @ 2024-09-07 15:36 玥茹苟阅读(592) 评论(0) 推荐(0) 编辑

cuda

摘要：1、直接用命令查看显存占用情况附带有CUDA版本的情况 nvidia-smi路径在C:\Program Files\NVIDIA Corporation\NVSMI 首先概括一下这几个概念。其中SM（Streaming Multiprocessor）和SP（streaming Processor）是阅读全文

posted @ 2020-10-29 15:25 玥茹苟阅读(216) 评论(0) 推荐(0) 编辑

cuda实践5---cuda kdtree、octree

摘要：cuda kdtree 前言：将kdtree 查询部分移植到GPU端，在很多应用中对提高算法的执行效率很有帮助，本文使用英伟达GPU语言cuda，完成了kdtree GPU端的移植。步骤比较简单：1、cpu端创建kdtree； 2、迁移kdtree node 节点到GPU端；3、GPU端实现临近阅读全文

posted @ 2020-08-07 17:37 玥茹苟阅读(3630) 评论(2) 推荐(0) 编辑

cuda实践4

摘要：这里对上一篇 cuda实践3 中的代码进行修改，在block中对share memory 进行迭代。 template <int BLOCK_SIZE> __global__ void caculateShelter_cuda( float *uv_triangulation_0, float * 阅读全文

posted @ 2020-08-05 17:15 玥茹苟阅读(192) 评论(0) 推荐(0) 编辑

cuda实践3

摘要：share memory 使用 template <int BLOCK_SIZE> __global__ void caculateShelter_cuda( float *uv_triangulation_0, float *uv_triangulation, float *w_triangula 阅读全文

posted @ 2020-08-04 11:44 玥茹苟阅读(170) 评论(0) 推荐(0) 编辑

cuda实践2

摘要：内存分配： cudaMemcpy 进行主机与设备端的数据内存交换。 CUDA程序的处理流程：从CPU拷贝数据到GPU。调用kernel来操作存储在GPU的数据。将操作结果从GPU拷贝至CPU。 CUDA线程分成Grid和Block两个层次：由一个单独的kernel启动的所有线程组成一个gri 阅读全文

posted @ 2020-06-23 18:23 玥茹苟阅读(187) 评论(0) 推荐(0) 编辑

cuda实践(1)

摘要：先安装VS 在安装cuda，安装前先检查NIVIDA 显卡驱动是否正常。安装参考：https://blog.csdn.net/anhec/article/details/86747512 测试安装运行测试demo，打开 %CUDA_install_dir%\CUDA\v10.0\extras\d 阅读全文

posted @ 2020-06-05 17:16 玥茹苟阅读(225) 评论(0) 推荐(0) 编辑