显存不足造成nan错误
用MMDetection训练过程中,全连接层(Fully Connected Layers,FC)出现nan错误,但是全连接层只是线性组合,而且数值也不大,也没有计算损失函数,怎么可能出现nan错误?
经过研究发现,原来是显存不足造成的,由于显存不足,有些tensor没有了,就造成了nan错误,进行了如下设置:
samples_per_gpu=1,
workers_per_gpu=1,
把1个GPU训练2个samples,改成了1个GPU训练1个sample,这个错误就消失了.