GPU软件抽象与硬件映射的理解(Grid、Block、Warp、Thread与SM、SP)
https://blog.csdn.net/TANGWENTAI/article/details/126818834
重新理顺CUDA编程的软硬件关系
https://blog.csdn.net/yychentracy/article/details/90201729
https://blog.csdn.net/u012968002/article/details/70209694
cuda中__global__和__device__的区别
__global__是kernel函数,可从cpu调用,调用时用<<< >>>语法配置并行化参数。__device__是只能从一个gpu函数调用,不能从cpu调用。