未知进程占用显存排查

现象

nvitop   查看gpu 使用情况,会看到 ‘No Such Process’ 这样的进程占用了显存;

使用ps 查不到该命令。

 

 

原因

大概率是主进程挂了,或者被终止了,但是子进程仍然占用着显存。

 

解决方法

方法1: 如果确定进程都是python 启动的,执行下面的命令; 如果不是python,但是知道关键字,把python替换成关键字也行。

返回结果里不是root 的进程,大概率就是僵尸进程,判断是不是该进程在占显存, 然后kill 掉即可

ps aux|grep python|awk '{print $2}'|xargs ps -f -p|grep -E '^\S+\s+\w+\s+1\s'

 

方法2:查看设备占用 (不能完全查到)

fuser -v /dev/nvidia*
# 根据返回的结果排查

  

 

posted @ 2024-06-21 14:42  温泉镇谢步东  阅读(4)  评论(0编辑  收藏  举报