pytorch分布式训练注意事项/踩坑总结 - 持续更新

分布式训练使用方法见博主之前的博客,本文介绍一些注意事项。

分布式训练用torchrun进行,要注意:

  1. 所有进程必须固定随机种子,不然可能会导致训练时不同进程的样本不一致,尤其是涉及随机数时,比如train_test_split。

  2. export LOGLEVEL=DEBUG可以修改torchrun的log级别

posted @ 2024-06-18 16:25  王冰冰  阅读(46)  评论(2编辑  收藏  举报