目标检测中的图像输入尺寸是否固定的讨论

图像任务中，传入到模型的图像尺寸往往是固定的，十万个为什么由此发问：

1 那为什么是固定的？
模型网络中含有全连接层的时候，输入尺寸只能固定大小，因为全连接网络的输入feature尺寸是固定的。一些模型网络就不一定需要尺寸固定，比如FCN网络中全是卷积网络而没有连接网络。

yolov5比较特殊，输入图像宽高得是采样值32的倍数，这种特例就特别看待，也就是桌yolov5可以不固定，但是图像输入尺寸必须是32倍数，也是有一定限制。

2 实际大小图像为了能输入到模型运行要做什么改变？
（1）选择resize到固定尺寸：
a 原始图的宽高比太大，resize之后图像就变形得非常严重。如果你训练数据足够多，而且也是这个叼样子（数据分布一致性）。那没问题，你实际推理resize你的模型照样好用，模型能容忍你的resize。
b 增加padding后再resize，分类任务里不适合这样搞，因为padding的图像部分对模型来说是噪声；但我觉得yolov5目标检测里可以这么搞，因为目标检测含有定位点的回归损失，一定程度上指导了模型训练。
（2）只选取中心区域然后crop：
显而易见的是，非中心区域的图像被crop了。对于宽高比大的图像直接宣布GG。这样做得到好处是中心区域的图像不会因为resize而变形。

3 这些改变会影响模型精度吗？
训练集的数据处理方法 == 实际图像predict处理方法，才好，不然就不好。

4 大尺寸输出好还是小尺寸输入好？
这仅仅是一个速度和效果的权衡问题，大尺寸输入意味着模型能提取到更多的图像细节，但模型也因此增大。不考虑计算速度的话，当然是大尺寸好（数据量也得够才行，不然会容易过拟合）。

参考

https://zhuanlan.zhihu.com/p/362701716

posted @ 2023-07-07 09:52 海_纳百川阅读(673) 评论(0) 收藏举报

刷新页面返回顶部

不积跬步无以至千里

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己

目标检测中的图像输入尺寸是否固定的讨论

参考

公告

不积跬步无以至千里

研究领域：深度学习，图像处理 联系方式：vladimirputin@foxmail.com 不必高看自己，也不必贬低自己

目标检测中的图像输入尺寸是否固定的讨论

参考

公告

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己