随笔分类 - PyTorch分布式训练踩坑

pytorch分布式训练报错：Duplicate GPU detected : rank 1 and rank 0 both on CUDA device 35000

摘要：之前使用的比较老的torch 1.8.1，换到torch 2.0后报错 "rank 1 and rank 0 both on CUDA device 35000" 将main函数开头部分的初始化 ```python distributed.init_process_group(backend='nc 阅读全文

posted @ 2023-09-05 22:29 脂环阅读(5410) 评论(0) 推荐(0) 编辑

PyTorch单机多卡分布式训练卡死（已解决，原因未知）

摘要：4卡080Ti，总的batchsize=4，使用tmux挂在后台训练，经过几个小时发现一直卡在第26个epoch（共60个epoch）的第1400个batch，nvidia-smi查看发现0号和2号卡满载，1号和3号卡在休息...于是只能Ctrl+C。结果突然发现tmux显示到了第4800个batc 阅读全文

posted @ 2022-12-07 20:16 脂环阅读(1285) 评论(1) 推荐(0) 编辑

公告

昵称：脂环
园龄： 5年11个月
粉丝： 85
关注： 31

+加关注

Loading

脂环

随笔分类 - PyTorch分布式训练踩坑

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论