profile

今天算是切身体会到nvcc编译器的坑爹了,真心在瞎编。对于这点,可以用nv的profile 反汇编出nvcc编译出的目标代码,若想和源码对应,则需加上-lineinfo编译选项。

在profile的individual kernel——perform computing analysis——instruction execution这里,然后双击右侧的kernel,即可弹出。(这里的步骤选项是大致的意思,并没有字字对应)

然后选择PC sampling(看指令延迟),双击右侧kernel.

profiler是个好东西,是目前优化必用啊。。。

 

posted on 2017-07-20 21:09  d神  阅读(184)  评论(0编辑  收藏  举报

导航