最优的cuda线程配置

1 每个SM上面失少要有192个激活线程，寄存器写后读的数据依赖才能被掩盖

2 将寄存器的bank冲突降到最低，应尽量使每个block含有的线程数是64的倍数

3 block的数量应设置得令可用的计算资源被充分的利用。由于每个block映射到一个sm上面，所以至少应该让block的数目跟sm的数目一样多。

4 当Block中的线程被同步时或者等待读取设备存储器时，相应的SM会闲置。通常让block的数目是sm的2倍以上，使其在时间轴上重叠

5 如果block的数目足够多，则每个Block里的线程数应设置成warp尺寸的整数倍，以免过小的warp浪费计算资源。

6 给每个block分配越多的线程，能更高效的让他们在时间片上工作。但是相应的每个线程的寄存器也就越少。当寄存器过少，有可能因为访问溢出的寄存器，而导致数据的存储变慢。

7 当每个线程占用的寄存器较多时，不宜在Block内分配过多的线程，否则也会减少block的数目。从而使SM的工作效率降低

8 每个block内的线程数应遵循相应的计算能力等级中的规定数目。

原文来自《GPGPU编程技术--从GLSL、CUDA到OPENCL》

posted @ 2013-08-28 19:13 xingoo 阅读(4168) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试？测试工程师会被淘汰吗？

扫码关注公众号，不定期分享大数据和机器学习工作经验与学习心得

昵称： xingoo
园龄： 12年5个月
粉丝： 3983
关注： 79

2025年3月

日

一

二

三

四

五

六

xingoo