随笔分类 -  cuda编程

摘要:1.在有数据量不大的矩阵计算的时候可以先乘了之后传入cpu(因为cuda矩阵相乘很麻烦) // 计算P阵 Eigen::Matrix<float, 3, 4> A = B * C; cudaMemcpy(&d_p_vec[i * matrixSize], A.data(), p_matSize, c 阅读全文
posted @ 2022-03-18 21:06 开锁球 阅读(29) 评论(0) 推荐(0) 编辑
摘要:内存使用 cuda程序会使用gpu和cpu内 存 cpu内存释放与分配是标准的 1)栈,自动分配的 2)堆:用户自己分配释放的,如new,delete,malloc,free等 3.gpu内存分配 1)cudaMalloc(void**devPtr , size_t size) 2) cudafre 阅读全文
posted @ 2022-03-15 15:06 开锁球 阅读(295) 评论(0) 推荐(0) 编辑
摘要:gpu 内存模型 每个gpu有很多Multyproccessor,每个processor结构如下 1)私有本地内存 2)共享内存,速度很快,可以被块中的所有线程访问,生命周期与块一致 __share__调用 void __syncthreads()使块中的线程同步,相当与一个障碍点,所有程序运行到障 阅读全文
posted @ 2022-03-14 22:28 开锁球 阅读(130) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示