摘要:
▶ 简单的将纯 C/C++ 函数放到另一个文件中,利用头文件引用到主体 .cu 中来,编译时共同编译。 ▶ 源代码,把 C++ 的部分去掉了 ● 输出结果: ▶ 涨姿势 阅读全文
摘要:
▶ 简单的将纯 C/C++ 函数放到另一个文件中,利用头文件引用到主体 .cu 中来,编译时共同编译。 ▶ 源代码,把 C++ 的部分去掉了 ● 输出结果: ▶ 涨姿势 阅读全文
摘要:
▶ 使用 CUDA Runtime API,运行时编译,Driver API 三种接口计算向量加法 ▶ 源代码,CUDA Runtime API ● 输出结果: ▶ 源代码,运行时编译 ● 输出结果: ▶ 源代码,Driver API,也需要上面的 vectorAdd_kernel.cu,调用核函数 阅读全文
摘要:
使用 OpenMP 和 pthreads 两种环境,利用实现统一内存编址,计算基本的矩阵乘法 result = α * A * x + β * result 。 ▶ 源代码 ▶ 输出结果:OpenMP ▶ 输出结果:pthreads ▶ 涨姿势: ● 使用 C++ 结构体完成了类似类的方法。即在结构 阅读全文
摘要:
简单的 CUDA 应用模板,白送的 Sample。 ▶ 源代码 ▶ 输出结果: ▶ 涨姿势:没有 阅读全文
摘要:
两种方法使用零拷贝内存做简单的向量加和,并评估 GPU 计算结果与 CPU 计算结果的差。 ▶ 源代码 ▶ 输出结果: ▶ 涨姿势 ● 两种使用零拷贝内存的方法,在代码的逻辑部分进行了说明 ● 向上取整的宏函数,只对分母(size)为 2 的整数次幂的情况有效。 e.g. size == 4096, 阅读全文
摘要:
介绍了线程束表决函数的实例(其概念介绍见 http://www.cnblogs.com/cuancuancuanhao/p/7841512.html),并在静态和运行时编译两种条件下进行使用。 ▶ 源代码:静态 ▶ 输出结果: ▶ 源代码:运行时编译(删掉了相同的注释) ▶ 输出结果: ▶ 涨姿势 阅读全文
|