摘要: 分析tile并行算法的优化情况:一维卷积的复用情况分析比如8个元素的一维卷积tile优化.M的大小是5,计算8个元素的卷积需要载入 8+5-1 =12, 如果不使用tile,每个元素都需要载入 8*5 =40, 所以全局内存访问带宽减少 40/12 =3.3. 正常我们算40 = 8*5的方式来看,... 阅读全文
posted @ 2015-01-28 14:02 Magnum Programm Life 阅读(1704) 评论(0) 推荐(0) 编辑