pytorch分布式训练注意事项/踩坑总结 - 持续更新

分布式训练使用方法见博主之前的博客，本文介绍一些注意事项。

分布式训练用torchrun进行，要注意：

所有进程必须固定随机种子，不然可能会导致训练时不同进程的样本不一致，尤其是涉及随机数时，比如train_test_split。
export LOGLEVEL=DEBUG可以修改torchrun的log级别

posted @ 2024-06-18 16:25 王冰冰阅读(156) 评论(2) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· pytorch分布式训练 DDP torchrun介绍和基本使用

· deepspeed从入门到放弃

· pytorch 多机单卡分布式训练配置笔记.18010304

· pytorh分布式训练

· windows下使用pytorch进行单机多卡分布式训练

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2021-06-18 用chrono库写个方便使用的计时器

公告

昵称：王冰冰
园龄： 4年3个月
粉丝： 8
关注： 7

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:vscode配置latex workshop后，无法使用xelatex编译的解决方案
@后生那各膊客圆了早就告诉过你，安装overleaf的服务器已经下架了。...
--王冰冰
2. Re:vscode配置latex workshop后，无法使用xelatex编译的解决方案
实验室的overleaf不够你用了？
--后生那各膊客圆了
3. Re:docker查看镜像、运行容器、端口映射
这种基本操作都能水一篇博客？
--后生那各膊客圆了
4. Re:使用一个云服务器改善GTA5的联机网络
@蕉太羊希望你不要明知故问，我是为了博客园不被ban。...
--王冰冰
5. Re:使用一个云服务器改善GTA5的联机网络
什么是猥皮恩
--蕉太羊

AI FOR CODE 大赛