随笔分类 - cuda编程
摘要:1.在有数据量不大的矩阵计算的时候可以先乘了之后传入cpu(因为cuda矩阵相乘很麻烦) // 计算P阵 Eigen::Matrix<float, 3, 4> A = B * C; cudaMemcpy(&d_p_vec[i * matrixSize], A.data(), p_matSize, c
阅读全文
摘要:内存使用 cuda程序会使用gpu和cpu内 存 cpu内存释放与分配是标准的 1)栈,自动分配的 2)堆:用户自己分配释放的,如new,delete,malloc,free等 3.gpu内存分配 1)cudaMalloc(void**devPtr , size_t size) 2) cudafre
阅读全文
摘要:gpu 内存模型 每个gpu有很多Multyproccessor,每个processor结构如下 1)私有本地内存 2)共享内存,速度很快,可以被块中的所有线程访问,生命周期与块一致 __share__调用 void __syncthreads()使块中的线程同步,相当与一个障碍点,所有程序运行到障
阅读全文