摘要: 不优化 对于一个m * n的矩阵a和一个n * k的矩阵b 因为最后得到一个m * k的矩阵c,那么我们可以分配m * k个线程。 在线程(i,j)里矩阵a的第i行和矩阵b的第j列进行点积运算得到c[i][j] #include<iostream> #include "cuda_runtime.h" 阅读全文
posted @ 2024-03-15 14:51 拾墨、 阅读(19) 评论(0) 推荐(0) 编辑