随笔分类 -  PyTorch分布式训练踩坑

摘要:之前使用的比较老的torch 1.8.1,换到torch 2.0后报错 "rank 1 and rank 0 both on CUDA device 35000" 将main函数开头部分的初始化 ```python distributed.init_process_group(backend='nc 阅读全文
posted @ 2023-09-05 22:29 脂环 阅读(5410) 评论(0) 推荐(0) 编辑
摘要:4卡080Ti,总的batchsize=4,使用tmux挂在后台训练,经过几个小时发现一直卡在第26个epoch(共60个epoch)的第1400个batch,nvidia-smi查看发现0号和2号卡满载,1号和3号卡在休息...于是只能Ctrl+C。结果突然发现tmux显示到了第4800个batc 阅读全文
posted @ 2022-12-07 20:16 脂环 阅读(1285) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
主题色彩