2014年1月4日
摘要: 问题描述:一般利用CUDA进行加速处理时,都需要测试CUDA程序的运行时间,来对比得到的加速效果.解决方法:1).GPU端计时,即设备端计时.2).CPU端计时,即主机端计时.设备端计时有两种不同的方不地,分别是调用clock()函数和使用CUDA API的事件管理功能.clock函数计时:1).在内核函数中要测量的一段代码的开始和结束的位置分别调用一次clock函数,并将结果记录下来.2).根据这两次clock函数返回值,作差计算,然后除以GPU的运行频率(SP的频率)即可以得到内核执行时间.一般只需要记录每个block执行需要的时间,最后将得到多个block的开始和结束时间,然后比较这多个 阅读全文
posted @ 2014-01-04 15:38 wanghetao 阅读(2470) 评论(0) 推荐(0) 编辑