随笔分类 -  CUDA编程

Cython与CUDA之Add
摘要:Cython与CUDA之Add本文介绍了使用CUDA和Cython来实现一个CUDA加法算子的方法,并介绍了使用CUDA参数来估算性能极限的算法。经过实际测试,核函数部分的算法性能优化空间已经不是很大了,更多时候可以考虑使用Stream来优化Host和Device之间的数据传输。
142
0
0
Cython与CUDA之BatchGather
摘要:Cython与CUDA之BatchGather以学习CUDA为目的,接上一篇关于Cython与CUDA架构下的Gather算子实现,这里我们加一个Batch的维度,做一个BatchGather的简单实现。
113
0
0
CUDA时长统计
摘要:CUDA时长统计这篇文章主要介绍了一个CUDA入门的技术:使用CUDA头文件写一个专门用于CUDA函数运行时长统计的宏,这样就可以统计目标Kernel函数的运行时长。可以直接在CUDA中打印相应的数值,也可以回传到Cython或者Python中进行打印。
200
0
0
Cython与CUDA之Gather
摘要:Cython与CUDA之Gather本文使用了Cython作为封装函数,封装一个CUDA C实现的Gather算子,然后通过Python去调用,用这种方法实现一个比较Pythonic的CUDA Gather函数的实现和调用。
130
0
1
CUDA异常捕获
摘要:CUDA异常捕获本文主要介绍了在CUDA编程的实践中,增加一个异常捕获的宏模块,以保障CUDA项目结果的准确性。主要代码内容参考了樊哲勇所著的《CUDA编程基础与实践》,是一本很好的CUDA编程入门书籍。
259
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起

喜欢请打赏

扫描二维码打赏

了解更多