摘要: 1. 优化方向1. 传输、解码、计算流水线2. 多个Stream并发3. 低位数整数运算4. CPU/GPU流水线 2. 每个核函数使用最少的寄存器 3. 必须最大限度地利用全局内存 带宽 4. 5. 开启一级缓存和关闭(K40以上GPU默认关闭) -Xptxas -dlcm=cg (禁用一级缓存) 阅读全文
posted @ 2020-02-20 22:42 洛笔达 阅读(419) 评论(0) 推荐(0) 编辑