GPU 服务器cuda out of memory

1.nvidia -smi 

可以查看到当前显卡的memory,可以选择memory剩余多的跑代码

os.environ["CUDA_VISIBLE_DEVICES"]="2"#指定在哪块卡上跑代码


2.由于非正常退出会导致即使代码停止运行,但是占着的memory依然在。那么需要

ps -aux
上面这个指令可以看到当前服务器下的各种信息
ll /proc/PID
上面这个指令将需要查看详情的PID输入即可,就能看到该PID的user,time等信息。

找到你的显卡运行的PID,然后把它kill

kill -9 PID

如果kill之后,依然memory占着。此时需要查看隐藏进程:

ps -A -ostat,ppid,pid,cmd | grep -e '^[Zz]'

kill 隐藏进程

OK

 

posted on 2020-09-30 21:24  cltt  阅读(1027)  评论(0编辑  收藏  举报

导航