摘要: #include <stdio.h> #include <cuda_runtime.h> // 128 x 128 -> __global__ void mm(float* a, float* b, float* c) { // 8 x 8个方块,每个方块16x16 extern __shared_ 阅读全文
posted @ 2024-10-20 20:09 zwlwf 阅读(5) 评论(0) 推荐(0) 编辑