pytorch分布式训练注意事项/踩坑总结 - 持续更新
分布式训练使用方法见博主之前的博客,本文介绍一些注意事项。
分布式训练用torchrun进行,要注意:
-
所有进程必须固定随机种子,不然可能会导致训练时不同进程的样本不一致,尤其是涉及随机数时,比如train_test_split。
-
export LOGLEVEL=DEBUG可以修改torchrun的log级别
分布式训练使用方法见博主之前的博客,本文介绍一些注意事项。
分布式训练用torchrun进行,要注意:
所有进程必须固定随机种子,不然可能会导致训练时不同进程的样本不一致,尤其是涉及随机数时,比如train_test_split。
export LOGLEVEL=DEBUG可以修改torchrun的log级别
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· .NET10 - 预览版1新功能体验(一)
2021-06-18 用chrono库写个方便使用的计时器