多卡训练yolo系列模型
直接在后台服务器运行
输入命令
nohup python -m torch.distributed.launch --nproc_per 2 train.py > out.log 2>&1 &
注意,一定要用 “ nohup <运行程序> > out.log 2>&1 & ”,让程序在后台运行。原因是,从下载巨大的数据集,到训练 YoloV5 模型,前后要运行十几个小时。在这段时间里,你的笔记本电脑与 MistGPU 的网络连接,很可能会中断。所以,把程序放在后台运行,只要服务器不挂掉,程序就一直运行,直到完成任务。
其中 ,(1)out.log 是输出的日志文件名,可以随意修改;(2)> out.log 的意思是,把 fd1(STDOUT) 的内容,转发到 out.log 文件;(3)2>&1 的意思是,把 fd2(STDERR),转发到 fd1(STDOUT),而 STDOUT 会再次转发到 out.log。
参考链接:https://zhuanlan.zhihu.com/p/582658341