2012年10月25日

CUDA 简单矩阵乘法修订版(选自《大规模并行处理器编程实战》)

摘要: __global__ void MatrixMulKernel(float *Md, float *Nd, float *Pd, int Width){ int tx = threadIdx.x; int ty = threadIdx.y; float Pvalue = 0; for(int k = 0; k < Width; k++) { float Mdelement = Md[ty * Width + k]; float Ndelement = Nd[k * Width + tx]; Pvalue += Mdelem... 阅读全文

posted @ 2012-10-25 21:06 更好的人 阅读(319) 评论(0) 推荐(0) 编辑

导航