摘要:
把代码文件和主程序文件分开编译,使用头文件的形式进行引用。 ▶ 源代码 ▶ 输出结果 未测试 ▶ 涨姿势 ●写在其他 .cpp 文件中的设备函数,需要用函数 cudaMemcpyFromSymbol() 放入设备常量内存才能使用。 阅读全文
摘要:
把代码文件和主程序文件分开编译,使用头文件的形式进行引用。 ▶ 源代码 ▶ 输出结果 未测试 ▶ 涨姿势 ●写在其他 .cpp 文件中的设备函数,需要用函数 cudaMemcpyFromSymbol() 放入设备常量内存才能使用。 阅读全文
摘要:
在设备代码中使用函数 printf(),没有新的认识。 ▶ 源代码 ▶ 输出结果 阅读全文
摘要:
对比设备线性二维数组和 CUDA 二维数组在纹理引用中的效率 ▶ 源代码。分别绑定相同大小的设备线性二维数组和 CUDA 二维数组为纹理引用,做简单的平移操作,重复若干次计算带宽和访问速度。 ▶ 输出结果 ▶ 涨姿势 ● 用到的函数都在以前的,有关线性二维数组和纹理内存使用方法的博客汇总讨论过了。 阅读全文
摘要:
使用 P2P 特性在 GPU 之间传输、读写数据。 ▶ 源代码。包括 P2P 使用前的各项检查,设备之间的数据互拷,主机和设备之间数据传输和相互访问。 ▶ 输出结果 只有一台设备,暂无法进行测试 ▶ 涨姿势: ● P2P 要求:至少两台计算能力不低于 2.0 的设备,并支持同一可视内存空间特性;计算 阅读全文
摘要:
计算核函数调用使得占用率,并尝试使用 runtime 函数自动优化线程块尺寸,以便提高占用率。 ▶ 源代码。 ▶ 输出结果 ▶ 涨姿势 ● 用到的几个 runtime 函数及其相互关系。 阅读全文
|