【转载】解决Nvidia-smi没有进程但是显存不释放的问题
————————————————
版权声明:本文为CSDN博主「打拳的土豆」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/nizhenshishuai/article/details/124354203
=================================================
Nvidia显存占用问题
程序已停掉,但是GPU显存无法释放,我们在使用PyTorch写程序的时候, 有时候会在控制台终止掉正在运行的程序,但是有时候程序已经结束了,nvidia-smi 也看到没有程序了,但是GPU的内存并没有释放,这是怎么回事呢?
这是因为使用PyTorch设置多线程进行数据读取,其实是假的多线程,他是开了N个子进程(PID都连着)进行模拟多线程工作,所以你的程序跑完或者中途kill掉主进程的话,子进程的GPU显存并不会被释放,需要手动一个一个kill才行,具体方法描述如下:
使用以下命令发现僵尸进程:
fuser -v /dev/nvidia*
然后使用 kill -9 pid 杀死僵尸进程,当僵尸进程比较多时,上述命令重复输入显得非常繁琐,使用下属命令一句话杀死所有进程:
fuser -v /dev/nvidia* |awk '{for(i=1;i<=NF;i++)print "kill -9 " $i;}' | sh
如果需要权限,命令更改如下:
sudo fuser -v /dev/nvidia* |awk '{for(i=1;i<=NF;i++)print "kill -9 " $i;}' | sh
再次输入 nvidia-smi 发现内存释放:

==============================================
PS:
如果只想关闭掉某张显卡上的驻留进程,如0号nvidia显卡,那么命令为:
sudo fuser -v /dev/nvidia0 |awk '{for(i=1;i<=NF;i++)print "kill -9 " $i;}' | sh
关闭掉1号显卡上所有的驻留进程:
sudo fuser -v /dev/nvidia1 |awk '{for(i=1;i<=NF;i++)print "kill -9 " $i;}' | sh
===============================================
posted on 2023-04-05 15:45 Angry_Panda 阅读(5250) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
2019-04-05 【转载】 强化学习(二)马尔科夫决策过程(MDP)
2018-04-05 Android编程 高德地图 中如何重写 定位按键 的触发事件 (com.amap.api.maps2d.LocationSource)点击定位后不仅定位在地图中心点上而且可以设置地图的缩放大小和提示
2018-04-05 Android 编程 高德地图 (实现显示地图以及定位功能)
2018-04-05 Android 编程 AMapLocationClientOption 类中的 setMockEnable (高德地图 com.amap.api.location.AMapLocationClientOption 中的类)
2018-04-05 Android 编程 AMapLocationClientOption 类中的 setNeedAddress 方法用处 (高德地图 com.amap.api.location.AMapLocationClientOption 中的类)
2018-04-05 Android编程 高德地图 AMapLocationClientOption 类中 setWifiActiveScan过时