Pytorch 训练停止,输出显示 died with <Signals,SIGKILL.9> 问题定位过程记录
摘要:
最近使用 Pytorch 进行模型训练时,模型在训练到一小部分后程序均被停止。第一次以为是由于机器上其他人的误操作,故而直接重新拉起训练。但第二次程序终止时,发现基本与第一次训练停止的训练 iteration 一致,故而尝试对问题进行定位。 问题描述 具体而言,在使用 Pytorch 训练时的错误信 阅读全文
posted @ 2021-11-24 19:40 yhjoker 阅读(5824) 评论(0) 推荐(1) 编辑