摘要: 分布式训练使用方法见博主之前的博客,本文介绍一些注意事项。 分布式训练用torchrun进行,要注意: 所有进程必须固定随机种子,不然可能会导致训练时不同进程的样本不一致,尤其是涉及随机数时,比如train_test_split。 export LOGLEVEL=DEBUG可以修改torchrun的 阅读全文
posted @ 2024-06-18 16:25 王冰冰 阅读(73) 评论(2) 推荐(0) 编辑