17标签数据集重新训练过程中遇到的问题及解决方案
问题一:训练好的模型在使用test.py测试时报错:Failed to get convolution algorithm. This is probably because cuDNN failed to initialize
原因分析:根据提示,误认为时cuDNN的问题,各种尝试均失败,最后在网上看到以为大神@史丹利复合田 说可能时GPU内存暂用不足的问题。 nvidia-smi 检测显卡占用后发现并没有问题,估计是内存分配的问题。
解决方案:于是按照大神的建议,给test.py脚本添加了一段让GPU按需分配的代码,亲测问题解决。代码如下
from tensorflow.compat.v1 import ConfigProto from tensorflow.compat.v1 import InteractiveSession config = ConfigProto() config.gpu_options.allow_growth = True session = InteractiveSession(config=config)
问题二: 使用Ctrl·+Z强制停止训练后,再次训练会报错,提示
Resource exhausted: OOM when allocating tensor of shape.......
原因分析:
显存不足,查看显卡占用情况,发现python仍在占用。
解决方案:
sudo killall -9 python
不断补充ing