摘要: 如果同时调度某个流的所有操作,那么很容易在无意中阻塞另一个流的复制操作或者核函数执行。要解决这个问题,在将操作放入流的队列时应采用宽度优先方式,而非深度优先方式。 阅读全文
posted @ 2017-08-11 22:10 Jason&Hymer 阅读(1581) 评论(0) 推荐(0) 编辑
摘要: malloc()分配的内存与cudaHostAlloc()分配的内存之间存在着一个重要差异。C库函数malloc()将分配标准的,可分页的(Pagable)主机内存,而cudaHostAlloc()将分配页锁定的主机内存。页锁定内存也称为固定内存(Pinned Memory)或者不可分页内存,它有一 阅读全文
posted @ 2017-08-11 17:32 Jason&Hymer 阅读(980) 评论(0) 推荐(0) 编辑
摘要: 直方图概念:给定一个包含一组元素的数据集,直方图表示每个元素的出现频率。 一、在CPU上计算直方图 二、在GPU上使用全局内存原子操作计算直方图 在GPU上运行时间比在CPU上运行时间长,性能不理想。 三、在GPU上使用共享内存原子操作计算直方图 运行时间缩短很多,性能提升明显。 阅读全文
posted @ 2017-08-11 15:09 Jason&Hymer 阅读(2281) 评论(0) 推荐(0) 编辑