分布式训练使用方法见博主之前的博客,本文介绍一些注意事项。
分布式训练用torchrun进行,要注意:
所有进程必须固定随机种子,不然可能会导致训练时不同进程的样本不一致,尤其是涉及随机数时,比如train_test_split。
export LOGLEVEL=DEBUG可以修改torchrun的log级别