1. 优化方向1. 传输、解码、计算流水线2. 多个Stream并发3. 低位数整数运算4. CPU/GPU流水线
2. 每个核函数使用最少的寄存器
3. 必须最大限度地利用全局内存 带宽
4.
5. 开启一级缓存和关闭(K40以上GPU默认关闭)
-Xptxas -dlcm=cg (禁用一级缓存)
-Xptxas -dlcm=ca (开启一级缓存)
(禁用)
(启用)