pytorch分布式训练注意事项/踩坑总结 - 持续更新

分布式训练使用方法见博主之前的博客,本文介绍一些注意事项。

分布式训练用torchrun进行,要注意:

  1. 所有进程必须固定随机种子,不然可能会导致训练时不同进程的样本不一致,尤其是涉及随机数时,比如train_test_split。

  2. export LOGLEVEL=DEBUG可以修改torchrun的log级别

posted @   王冰冰  阅读(156)  评论(2编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2021-06-18 用chrono库写个方便使用的计时器
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起