摘要: 利用shared memory计算,并避免bank conflict;通过每个block内部规约,然后再把所有block的计算结果在CPU端累加 代码: 阅读全文
posted @ 2017-11-06 22:48 BlueOceans 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 采用shared memory加速 代码 合并访存:tile_A按行存储,tile_B按列存储,sum=row_tile_A * row_tile_B 阅读全文
posted @ 2017-11-06 21:28 BlueOceans 阅读(701) 评论(0) 推荐(0) 编辑