摘要: 1. 典型的CUDA编程包括五个步骤: 分配GPU内存 从CPU内存中拷贝数据到GPU内存中 调用CUDA内核函数来完成指定的任务 将数据从GPU内存中拷贝回CPU内存中 释放GPU内存 *2. 数据局部性:(是指数据重用,以降低对于内存访问的延迟) 时间局部性:指在较短的时间内实现对数据或资源的重 阅读全文
posted @ 2019-02-13 12:01 小小小二 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 如果问题规模较小,逻辑控制较为复杂,并行性很小优先使用CPU处理该问题,如果包含较大规模的数据处理,则考虑使用GPU进行处理。 CPU上线程是重量级实体,可以开启1~32个线程,且上下文切换较为缓慢,GPU上线程是高度轻量级的,可以开几百甚至上千个线程。 CUDA通过两种API来对设备GPU设备进行 阅读全文
posted @ 2019-02-13 11:57 小小小二 阅读(169) 评论(0) 推荐(0) 编辑