2023 年 10月 25 日随笔档案 - Wangtn

2023年10月25日

摘要：使用了共享内存和向量化传输，目前为止效果最好的一个实现 __global__ void transposeSmemVec(float* input, float* output, const int X, const int Y){ __shared__ float smem[32 * 4 * 32 阅读全文

posted @ 2023-10-25 10:52 Wangtn 阅读(84) 评论(0) 推荐(0) 编辑

Wangtn

公告