摘要: http://blog.csdn.net/gamesdev/article/category/1778017处理DATA_SIZE =1048576个随机数(int)数据(4M)的平方和。#define DATA_SIZE 1048576 #define THREAD_NUM 256 如果设置了多... 阅读全文
posted @ 2014-08-17 22:09 默如诉 阅读(292) 评论(0) 推荐(0) 编辑
摘要: CUDA程序优化应该考虑的点:精度:只在关键步骤使用双精度,其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡; 目前GPU的单精度性能要远远超过双精度性能,整数乘法、求模、求余等运算的指令吞吐量也较为有限。在科学计算中,由于需要处理的数据量巨大,往往采用双精度或者四精度才能获得可靠的结果,目... 阅读全文
posted @ 2014-08-17 22:07 默如诉 阅读(1012) 评论(0) 推荐(0) 编辑
摘要: #include "cuda_runtime.h"#include "device_launch_parameters.h"#include #include #include "cublas_v2.h"void multiCPU(float *c, float *a, float *b, unsi... 阅读全文
posted @ 2014-08-17 00:19 默如诉 阅读(1170) 评论(0) 推荐(0) 编辑