2017 年 12月 9 日随笔档案 - 爨爨爨好

公告

2017年12月9日

摘要： ▶ 简单的将纯 C/C++ 函数放到另一个文件中，利用头文件引用到主体 .cu 中来，编译时共同编译。 ▶ 源代码，把 C++ 的部分去掉了 ● 输出结果： ▶ 涨姿势阅读全文

posted @ 2017-12-09 23:24 爨爨爨好阅读(260) 评论(0) 推荐(0) 编辑

0_Simple__vectorAdd + 0_Simple__vectorAdd_nvrtc + 0_Simple__vectorAddDrv

摘要： ▶ 使用 CUDA Runtime API，运行时编译，Driver API 三种接口计算向量加法 ▶ 源代码，CUDA Runtime API ● 输出结果： ▶ 源代码，运行时编译 ● 输出结果： ▶ 源代码，Driver API，也需要上面的 vectorAdd_kernel.cu，调用核函数阅读全文

posted @ 2017-12-09 19:51 爨爨爨好阅读(424) 评论(0) 推荐(0) 编辑

0_Simple__UnifiedMemoryStreams

摘要：使用 OpenMP 和 pthreads 两种环境，利用实现统一内存编址，计算基本的矩阵乘法 result = α * A * x + β * result 。 ▶ 源代码 ▶ 输出结果：OpenMP ▶ 输出结果：pthreads ▶ 涨姿势： ● 使用 C++ 结构体完成了类似类的方法。即在结构阅读全文

posted @ 2017-12-09 19:21 爨爨爨好阅读(520) 评论(0) 推荐(0) 编辑

0_Simple__template

摘要：简单的 CUDA 应用模板，白送的 Sample。 ▶ 源代码 ▶ 输出结果： ▶ 涨姿势：没有阅读全文

posted @ 2017-12-09 12:44 爨爨爨好阅读(274) 评论(0) 推荐(0) 编辑

0_Simple__simpleZeroCopy

摘要：两种方法使用零拷贝内存做简单的向量加和，并评估 GPU 计算结果与 CPU 计算结果的差。 ▶ 源代码 ▶ 输出结果： ▶ 涨姿势 ● 两种使用零拷贝内存的方法，在代码的逻辑部分进行了说明 ● 向上取整的宏函数，只对分母（size）为 2 的整数次幂的情况有效。 e.g. size == 4096，阅读全文

posted @ 2017-12-09 12:20 爨爨爨好阅读(456) 评论(0) 推荐(0) 编辑

0_Simple__simpleVoteIntrinsics + 0_Simple__simpleVoteIntrinsics_nvrtc

摘要：介绍了线程束表决函数的实例（其概念介绍见 http://www.cnblogs.com/cuancuancuanhao/p/7841512.html），并在静态和运行时编译两种条件下进行使用。 ▶ 源代码：静态 ▶ 输出结果： ▶ 源代码：运行时编译（删掉了相同的注释） ▶ 输出结果： ▶ 涨姿势阅读全文

posted @ 2017-12-09 00:51 爨爨爨好阅读(394) 评论(0) 推荐(0) 编辑