使用mmdetection训练yolox出现卡着不动的问题

2022年06月17日09:33:02

该问题已经解决,我在训练中没有设置正确的类别数,具体问题可在https://github.com/open-mmlab/mmdetection/issues/7298找到我的详细解决方案

——————————————————分割线————————————————————

2022年05月24日14:04:43

具体报错信息由于在内网无法呈现到此,但是我在mmdet的github官方项目中找到了该问题:https://github.com/open-mmlab/mmdetection/issues/7298

截止到目前,该问题被定义为yolox的bug,目前很多评论多以训练图片对应的xml标注文件中不存在标注框,但是我对自己的数据进行了检查,不存在该描述问题,所以也不是空标注问题导致。

下面我仔细的描述一下我的问题:

  • 2080ti单卡训练,会报出错误提示:
RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one. This error indicates that your module has parameters that were not used in producing loss. You can enable unused parameter detection by passing the keyword argument `find_unused_parameters=True` to `torch.nn.parallel.DistributedDataParallel`, and by
making sure all `forward` function outputs participate in calculating loss.
If you already have done the above, then the distributed data parallel module wasn't able to locate the output tensors in the return value of your module's `forward` function. Please include the loss function and the structure of the return value of `forward` of your module when reporting this issue (e.g. list, dict, iterable).
Parameter indices which did not receive grad for rank 0: 228 229 230 231 232 233
  • 2080ti多卡训练,卡数大于等于2,没有报错提示,但是终端页面会卡在某个iters就不动了,但是观察显卡发现利用率仍然在浮动,说明gpu内部还在计算,可能陷入计算死循环,此时只能手动停止。

截止到目前依旧没有找到有效的解决办法,由于之前多次使用yolox完成训练过且没有出现上述问题,因此我的注意力还是关注此次训练数据。

此次训练的数据是使用检测类别png图片+贴图的方式生成的训练样本。

目前检查数据做了如下操作:检查了每张图片是否都有标注,检查了标注的框是否都在图像尺寸之内

posted @ 2022-05-25 08:59  海_纳百川  阅读(1382)  评论(0编辑  收藏  举报
本站总访问量