随笔分类 -  已迁移至(博客园_穆晨)

使用 CUDA 大幅度提高运算的并行性
使用 CUDA 进行计算优化的两种思路
摘要:前言 本文讨论如何使用 CUDA 对代码进行并行优化,并给出不同并行思路对均值滤波的实现。并行优化的两种思路 思路1: global 函数 在 global 函数中创建出多个块多个线程对矩阵每个元素进行并行计算 请参考:http://www.cnblogs.com/scut-fm/p... 阅读全文

posted @ 2014-06-14 11:53 空山悟 阅读(400) 评论(0) 推荐(0) 编辑

二维数组的传输 (host <-> device)
摘要:前言 本文的目的很明确:介绍如何将二维数组传递进显存,以及如何将二维数组从显存传递回主机端。实现步骤 1. 在显存中为二维数组开辟空间 2. 获取该二维数组在显存中的pitch 值 (cudaMallocPitch 实现) 3. 将二维数组传递进显存 (cudaMemcpy2D 实现) 4... 阅读全文

posted @ 2014-06-14 10:30 空山悟 阅读(905) 评论(0) 推荐(0) 编辑

CUDA 程序中的同步
摘要:前言 在并发,多线程环境下,同步是一个很重要的环节。同步即是指进程/线程之间的执行顺序约定。 本文将介绍如何通过共享内存机制实现块内多线程之间的同步。 至于块之间的同步,需要使用到 global memory,代价较为高昂,目前使用的情况也不多,就先不介绍了。块内同步函数:__syncthre... 阅读全文

posted @ 2014-05-30 16:39 空山悟 阅读(1856) 评论(0) 推荐(0) 编辑

使用 CUBLAS 库给矩阵运算提速
摘要:前言 编写 CUDA 程序真心不是个简单的事儿,调试也不方便,很费时。那么有没有一些现成的 CUDA 库来调用呢? 答案是有的,如 CUBLAS 就是 CUDA 专门用来解决线性代数运算的库。 本文将大致介绍如何使用 CUBLAS 库,同时演示一个使用 CUBLAS 库进行矩阵乘法的例子。CU... 阅读全文

posted @ 2014-05-28 00:19 空山悟 阅读(13026) 评论(2) 推荐(1) 编辑

CUDA 标准编程模式
摘要:前言 本文将介绍 CUDA 编程的基本模式,所有 CUDA 程序都基于此模式编写,即使是调用库,库的底层也是这个模式实现的。模式描述 1. 定义需要在 device 端执行的核函数。( 函数声明前加 _golbal_ 关键字 ) 2. 在显存中为待运算的数据以及需要存放结果的变量开辟显存空间。... 阅读全文

posted @ 2014-05-27 20:56 空山悟 阅读(1184) 评论(0) 推荐(0) 编辑

CUDA 并行编程简介
摘要:前言 并行就是让计算中相同或不同阶段的各个处理同时进行。目前有很多种实现并行的手段,如多核处理器,分布式系统等。本专题的文章将主要介绍使用 GPU 实现并行的方法。参考本专题文章前请务必搭建好 CUDA 开发平台,搭建方法可以参考上一篇文章。GPU 并行的优缺点 优点: 1. 显存具有更大... 阅读全文

posted @ 2014-05-24 11:50 空山悟 阅读(1638) 评论(0) 推荐(0) 编辑

导航

点击右上角即可分享
微信分享提示