PyTorch单机多卡分布式训练卡死（已解决，原因未知）

4卡080Ti，总的batchsize=4，使用tmux挂在后台训练，经过几个小时发现一直卡在第26个epoch（共60个epoch）的第1400个batch，nvidia-smi查看发现0号和2号卡满载，1号和3号卡在休息...于是只能Ctrl+C。结果突然发现tmux显示到了第4800个batch，之后四张卡均满载，同时训练恢复正常。原因未知。

posted @ 2022-12-07 20:16 脂环阅读(1285) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区，博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】博客园社区专享云产品让利特惠，阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· pytorch分布式训练报错：Duplicate GPU detected : rank 1 and rank 0 both on CUDA device 35000

· Trying to backward through the graph a second time

· 【转载】在PyTorch训练一个epoch时，模型不能接着训练，Dataloader卡死——在pytorch中尽量不要使用opencv而是使用PIL

· Pytorch分布式训练，其他GPU进程占用GPU0的原因

· pytorch加速训练过程（单机多卡）

阅读排行：
· 微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
· 没有源码，如何修改代码逻辑？
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡：英雄联盟客户端的OpenSilver迁移实战

支持DeepSeek的编程助手