摘要:
https://zhuanlan.zhihu.com/p/28124810 阅读全文
摘要:
利用shared memory计算,并避免bank conflict;通过每个block内部规约,然后再把所有block的计算结果在CPU端累加 代码: 阅读全文
摘要:
采用shared memory加速 代码 合并访存:tile_A按行存储,tile_B按列存储,sum=row_tile_A * row_tile_B 阅读全文
摘要:
本方法采用简单的单线程计算每组行和列乘加运算 代码如下: 阅读全文
摘要:
文件目录: cudaTest |--utils.cu |--utils.h |--squaresum.cu |--squaresum.h |--test.cpp |--CMakeLists.txt 编译命令: $cd /root/cudaTest $mkdir build $cd build $cm 阅读全文
摘要:
胡文美教授 http://www.gpuworld.cn/article/show/463.html 阅读全文
摘要:
http://blog.csdn.net/delphiwcdj/article/details/5746560 阅读全文