摘要: 使用了共享内存和向量化传输,目前为止效果最好的一个实现 __global__ void transposeSmemVec(float* input, float* output, const int X, const int Y){ __shared__ float smem[32 * 4 * 32 阅读全文
posted @ 2023-10-25 10:52 Wangtn 阅读(68) 评论(0) 推荐(0) 编辑