RestoreDet:低分辨率图像中目标检测

前言 超分辨率(SR)等图像恢复算法是退化图像中目标检测不可或缺的预处理模块。然而,这些算法中的大多数假设退化是固定的并且是先验已知的。本文介绍了一种新的目标检测通用框架(RestoreDet),它通过编码和解码一对原始和随机退化图像的退化变换来学习各种分辨率和其他降级条件的等变表示的内在视觉结构。该框架可以进一步利用具有任意分辨率恢复解码器的高级SR架构来从退化的输入图像重建原始对应关系。

本文转载自计算机视觉研究院

作者 | Edison_G

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

计算机视觉入门1v3辅导班

论文地址:

一、前言

当真正的退化未知或与假设不同时,预处理模块和随后的高级任务(如目标检测)都会失败。在这里,研究者提出了一个新的框架,RestoreDet,来检测退化的低分辨率图像中的目标。RestoreDet利用下采样降级作为自监督信号的一种转换,以探索针对各种分辨率和其他降级条件的等变表示。

具体来说,通过编码和解码一对原始和随机退化图像的退化变换来学习这种内在的视觉结构。该框架可以进一步利用具有任意分辨率恢复解码器的高级SR架构来从退化的输入图像重建原始对应关系。表示学习和目标检测都以端到端的训练方式联合优化。RestoreDet是一个通用框架,可以在任何主流目标检测架构上实现。广泛的实验表明,基于CenterNet的框架在面对变质退化情况时与现有方法相比取得了卓越的性能。代码很快就会发布。

二、背景

由于大规模数据集,高级视觉任务(即图像分类、目标检测和语义分割)取得了巨大成功。这些数据集中的图像主要由具有更高分辨率和信噪比(SNR)的商用相机捕获。在这些高质量图像上进行训练和优化后,高级视觉在低分辨率或低质量图像上的性能会下降。为了提高视觉算法在退化的低分辨率图像上的性能,Dai等人[Is image super-resolution helpful for other vision tasks?]提出了第一个全面的研究,提倡使用超分辨率(SR)算法对图像进行预处理。其他高级任务,如人脸识别、人脸检测、图像分类和语义分割,也受益于恢复模块以提取更多区分特征。

三、新框架分析

研究者不是在严格假设下使用恢复模块显式增强输入图像,而是利用针对各种分辨率和退化状态的内在等变表示。基于上图所示的编码表示,研究者提出了 RestoreDet,这是一种用于在退化的LR图像中进行目标对象检测的端到端模型。为了捕捉视觉结构的复杂模式,利用下采样退化变换组作为自我监督信号。在训练过程中,通过随机退化变换t从原始HR图像x生成退化的LR图像t(x)。如上图所示,这对图像被送入编码器E以获取其潜在特征E(x)和E(t(x))。

为了训练编码器E学习退化等变表示,研究者首先引入一个变换解码器Dt来表示E(x)和E(t(x))解码应用的退化变换t。如果可以重建转换,则表示应尽可能捕捉它们在不同转换下如何变化的动态。

为了进一步利用快速增长的SR研究的优势,研究者引入了任意分辨率恢复解码器 (ARRD) Dr。ARRD从各种退化的LR图像t(x)的表示E(t(x))重建原始HR数据 x。ARRD Dr将监督编码器E对有助于后续任务的详细图像结构进行编码。基于编码表示E(t(x)),目标检测解码器Do然后执行检测以获取对象的位置和类别。在推理过程中,目标图像直接通过上图中的编码器E和目标检测解码器Do进行检测。与基于预处理模块的方法相比,研究者的推理pipeline计算效率更高。

为了覆盖实际场景中的各种退化,根据实际的下采样退化模型,通过随机抽样变换 t来生成退化的t(x)。如上图所示,变换t由下采样率s、退化核k和如下等式中的噪声水平n表征。

上图(a)是anchor free框架的CenterNet。图(b)说明了如何基于CenterNet实现的RestoreDet。详细的训练过程在Algo.1中给出。在训练RestoreDet时,原始HR图像x和变换后的退化LR图像t(x)被发送到编码器E以对退化等变表示进行编码。在这里,直接使用CenterNet的编码器E,但将其复制到共享权重Siamese结构中,分别接收HR和LR图像。

Algo.1

 

四、实验及可视化

MS COCO 和KITTI数据集上性能比较

(a)/(b) is CenterNet trained on normal images and tested on normal/degraded down4 testset, (c)/(d)/(e) is CenterNet tested on the degraded image restored by individual SR algorithm RRDB/RealSR/BSRGan. (f) is the detection result of our RestoreDet and we use the output of ARRD Dr as background images.

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

AAAI 2023 | 打破NAS瓶颈,AIO-P跨任务网络性能预测新框架

目标检测Trick | SEA方法轻松抹平One-Stage与Two-Stage目标检测之间的差距

少样本学习综述:技术、算法和模型

CVPR 2023 | 标注500类,检测7000类!清华大学等提出通用目标检测算法UniDetector

CVPR 2023|基于多层多尺度重建任务的MIM改进算法

CVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!

称霸Kaggle的十大深度学习技巧

CVPR 2023 | 用于半监督目标检测的知识蒸馏方法

目标跟踪方向开源数据集资源汇总

CVPR2023 | 书生模型霸榜COCO目标检测,研究团队解读公开

Vision Transformer的重参化也来啦 | RepAdpater让ViT起飞

高效压缩99%参数量!轻量型图像增强方案CLUT-Net开源

一文了解 CVPR 2023 的Workshop 都要做什么

CVPR'23 最新 70 篇论文分方向整理|包含目标检测、图像处理、人脸、医学影像、半监督学习等方向

目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度

PyTorch 2.0正式版来了!

CVPR2023最新Backbone | FasterNet远超ShuffleNet、MobileNet、MobileViT等模型

CVPR2023 | 集成预训练金字塔结构的Transformer模型

AAAI 2023 | 一种通用的粗-细视觉Transformer加速方案

大核分解与注意力机制的巧妙结合,图像超分多尺度注意网络MAN已开源!

MIRNetV2 更快、更强、更轻量!

AI部署与算法/自动驾驶/深度学习资料汇总!

点云模型专栏(一)概述、特性、存储格式、数据集

计算机视觉各个方向交流群与知识星球

【免费送书活动】 全新轻量化模型 | 轻量化沙漏网络助力视觉感知涨点

CV小知识讨论与分析(7) 寻找论文创新点的新方式

CV小知识分析与讨论(6)论文创新的一点误区

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

posted @ 2023-03-27 19:45  CV技术指南(公众号)  阅读(78)  评论(0编辑  收藏  举报