cuda by example
int offset= x+y*dim |
x 线程块内的线程索引
y 线程块索引
dim 线程块的维度
tid = threadIdx.x+blockIdx.x*blockDim.x |
计算大于或等于128的最小倍数(127+x)/128
kernel<<<(x+127)/128,128>>>(a,b,c) |
规约求和
int i= blockDim.x/2; while (i != 0){ if (cacheIndex < i) cache[cacheIndex] += cache[cacheIndex + i]; __synthreads(); i /= 2; } |
const int N = 33*1024 const int threadsperblock = 256; const int blockpergrid = imin(32,(N+threadperblock-1)/threadsperblock); kernel<<<blockpergrid,threadsperblock>>>(a,b,c); __global__ static void kenel( int *a, int *b, int *c){ ... int tid = threadIdx.x+blockIdx.x*blockDim.x; ... while (tid<N){ ... tid += blockDim.x*gridDim.x; ... } } |
if (threadIdx.x % 2){ ... __synthreads(); } |
这会造成 线程发散:
当某些线程需要执行一条指令,而其他线程不需要执行时,这种情况成为线程发散。
__synthreads会当所有的线程都执行后才释放,而有些线程如果不执行,那么kernel函数会无止境的等待。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?