CUDA的线程组织
当一个线程执行kernel函数时,引用blockIdx和threadIdx变量可以返回线程的坐标,kernel函数启动语句中的执行配置参数用来指定网格和每个线程块的维度,这些维度可以在kernel函数中通过预定义的内置变量gridDim和blockDim访问。
一般情况下,一个网格是由线程块组成的三维数组,而块是有线程组成的三维数组。如果只使用较低的维度,可以将不用的维度设为1.
<<< >>>第一个参数决定了网格的维度和线程块的数量,第二个参数决定了线程块的维度和块内的线程数。这样每个参数都是一个dim3类型的数据,dim3是由x,y,z三个无符号的整数构成的结构体。
比如:
dim3 dimBlock(128,1,1) %一维网格,包含128个线程块
dim3 dimGrid(32,1,1)%每个线程块包含32个线程。
为了方便起见,cuda c提供了使用一维网格和一维线程块启动kernel函数的便捷方式,将算数表达式作为x上的数据,并且假定y,z都为1.
在CUDA C中gridDim.x, gridDim.y, gridDim.z的取值范围是1-65536
blockIdx.x的取值范围是gridDim.x-1. 同理blockIdx.y, blocdIdx.z;