摘要: cuda shared memory读写带宽大于global memory(10倍以上),读写延时低(20~30倍),例如cuda parllel reduction的例子就先将数据从global memory搬运至shared memory,然后再做运算,从而提高程序性能. 为了提高读写带宽,cu 阅读全文
posted @ 2019-09-19 18:10 灰太狼锅锅 阅读(2099) 评论(0) 推荐(1) 编辑