GPU训练调试出错的问题排查方法
一般情况下,GPU训练时如果出现以下报错,一般都不方便排查,如:
a.merge_sort: failed to synchronize: device-side assert triggered
b.RuntimeError: cublas runtime error : the GPU program failed to execute at /tmp/pip-req-build-4baxydi
c.Segmentation fault (core dumped)
可通过设置CUDA_LAUNCH_BLOCKING=1 ,程序将在CPU运行,这样就可以查看详细的报错信息
设置如下:
1)命令行:CUDA_LAUNCH_BLOCKING=1 python main.py
2)代码:import os
os.environ['CUDA_LAUNCH_BLOCKING'] = 1
人生,从没有一劳永逸 想要变强,只有不停奔跑