会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
王冰冰
博客园
首页
新随笔
联系
订阅
管理
2024年6月18日
pytorch分布式训练注意事项/踩坑总结 - 持续更新
摘要: 分布式训练使用方法见博主之前的博客,本文介绍一些注意事项。 分布式训练用torchrun进行,要注意: 所有进程必须固定随机种子,不然可能会导致训练时不同进程的样本不一致,尤其是涉及随机数时,比如train_test_split。 export LOGLEVEL=DEBUG可以修改torchrun的
阅读全文
posted @ 2024-06-18 16:25 王冰冰
阅读(99)
评论(2)
推荐(0)
编辑
公告