存在空闲CUDA前提下报错:RuntimeError: CUDA error: out of memory

问题背景:

最近跑代码时发现报错CUDA out of memory,进入linux终端查看GPU使用情况(nvidia-smi),结果如下:

 

 我用的GPU序号是0,但这块被人占用了,所以我可以用剩下的3号和4号。

 

解决方案:

在代码中更改GPU使用序号(修改/添加代码):

1 import os
2 
3 os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3"
4 args.device = torch.device('cuda:{}'.format(2) if torch.cuda.is_available() else 'cpu')

os是列举出可用的GPU序号, args选择可用的index为2的序号,因此也为2.

 

可能出现的问题:代码中有些位置没有使用arg.device,而是直接使用model.cuda(),因为此时默认的序号0的GPU被占用,同样会报错:cuda out of memory

解决方法:需要修改代码为model.to(arg.device)

可能

posted @ 2021-09-17 09:36  achived  阅读(950)  评论(0编辑  收藏  举报