2019 年 9月 19 日随笔档案 - 灰太狼锅锅

2019年9月19日

摘要： cuda shared memory读写带宽大于global memory（10倍以上），读写延时低（20~30倍），例如cuda parllel reduction的例子就先将数据从global memory搬运至shared memory，然后再做运算，从而提高程序性能. 为了提高读写带宽，cu 阅读全文

posted @ 2019-09-19 18:10 灰太狼锅锅阅读(2099) 评论(0) 推荐(1) 编辑

灰太狼锅锅

公告