爨爨爨好

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2017年10月27日

摘要: 矩阵乘法,使用一维线程块和共享内存。并且在静态代码和运行时编译两种条件下使用。 ▶ 源代码:静态使用 ▶ 源代码:运行时编译 ▶ 输出结果: ▶ 涨姿势: ● 程序写得很烂,各种声明、初始化杂糅。 ● 一个根据cuda错误种类返回错误描述的函数 ● 预编译命令展开循环 等价于 #pragma unr 阅读全文
posted @ 2017-10-27 22:40 爨爨爨好 阅读(625) 评论(0) 推荐(0) 编辑

摘要: 在核函数代码中加入并行线程执行(Parallel Thread eXecution,PTX),通过汇编指令获取得有关线程束的信息。并且在静态代码和运行时编译两种条件下使用。 ▶ 源代码:静态使用 ▶ 源代码:运行时编译 ▶ 输出结果: ▶ 涨姿势: ● 获取当前线程在线程束中的编号,即同意先乘数中的 阅读全文
posted @ 2017-10-27 19:43 爨爨爨好 阅读(532) 评论(0) 推荐(0) 编辑

摘要: ▶ 使用cuda内置无符号整数结构(__half2)及其汇编函数,计算两个向量的内积。 ▶ 源代码 ● 输出结果 ▶ 涨姿势 ● CUDA 无符号半精度整数,就是用 unsigned short 对齐到 2 Byte 来封装的 ● 关于 __inline__ 和 __forceinline__ 参考 阅读全文
posted @ 2017-10-27 15:31 爨爨爨好 阅读(971) 评论(0) 推荐(1) 编辑

摘要: ▶ 在OpenMP的多线程程序中,各线程分别调用CUDA进行计算。OpenMP的简单示例。 ▶ 源代码,OpenMP 出了点问题,没有正确输出结果 阅读全文
posted @ 2017-10-27 14:13 爨爨爨好 阅读(364) 评论(0) 推荐(0) 编辑

摘要: ▶ 使用 cuda 内置结构 cudaFuncAttributes 来观察核函数的共享内存、寄存器数量 ▶ 源代码 ● 输出结果: ▶ 涨姿势: ● cuda 使用扩展名为 .cuh 的头文件 ● cuda内置结构 cudaFuncAttributes 的定义: ● 通过使用cuda的内置结构和函数 阅读全文
posted @ 2017-10-27 13:45 爨爨爨好 阅读(367) 评论(0) 推荐(0) 编辑

摘要: ▶ 分离编译【留坑,在 Linux 上用命令行试一下】 ▶ 源代码: ● 输出结果: ▶ 涨姿势: ● cuda 内置的 int2 类型,整数有序对。涉及的定义如下: ● 警告函数和错误检查函数 阅读全文
posted @ 2017-10-27 12:10 爨爨爨好 阅读(366) 评论(0) 推荐(0) 编辑