摘要:
cuda程序优化 一:程序优化概述 1:精度 在关键步骤使用双精度,其他步骤使用单精度,以获得指令吞吐量和精度的平衡。 2:延迟 先缓冲一定量数据,在交给GPU计算。可以获得较高的数据吞吐量。 3:计算量 1):绝对计算量 当计算量较少时,不因用GPU 2):相对计算量 当计算量中的并行站大多比例, 阅读全文
摘要:
一:核函数调用与参数传递 1:设备指针 1)可以将cudaMalloc()分配的指针传递给在设备上执行的函数 2)可以用cudaMalloc()分配的指针在设备上进行内存读写操作 3)可以将设备指针传递给在主机上执行的函数 4)不能在主机代码中使用设备指针对内存进行读写操作 二:设备属性 1:使用 阅读全文