基于深度学习的目标检测综述（一）：简介及骨干网络

这篇文献的主要结构如下：

第1节，简单介绍目标检测的发展及两类目标检测算法。

第 2 节中讨论了骨干网络，目标检测器需要强大的骨干网络来提取丰富的特征。众所周知，特定领域图像检测器的典型管道是任务的基础和里程碑。

在第 3 节中，本文阐述了之前提出的最具代表性和开创性的基于深度学习的目标检测方法比如说R-cnn，fastR-CNN,YOLO等。

第 4 节描述了常用数据集和指标。

第 5 节系统地解释了一般对象检测方法的分析。

第 6 节详细介绍了对象检测的五个典型领域和几个流行的分支。

第 7 节发展趋势总结。

摘要

目标检测是计算机视觉中最重要和最具挑战性的分支之一，在人们的生活中得到了广泛的应用，如监控安防、自动驾驶等，其目的是定位某一类语义对象的实例。随着用于检测任务的深度学习网络的快速发展，物体检测器的性能得到了极大的提高。

为了全面深入地了解目标检测领域的主要发展现状，在本次调查中，我们首先分析了现有典型检测模型的方法，并描述了基准数据集。之后，我们以系统的方式全面概述了各种物体检测方法，涵盖了一级和二级检测器。此外，我们列出了传统和新的应用3程序。还分析了对象检测的一些代表性分支。最后，我们讨论了利用这些对象检测方法来构建有效且高效系统的架构，并指出一组发展趋势以更好地遵循最先进的算法和进一步的研究。

1，简介

近几年来，由于其广泛的应用和最近的技术突破，物体检测越来越受到关注。这项任务正在学术界和工业界的应用中进行广泛研究，例如监控安全、自动驾驶、交通监控、无人机场景分析和机器人视觉。
在导致物体检测技术快速发展的众多因素中，显着的贡献应该归功于深度卷积神经网络和 GPU 计算能力的发展。在目前，深度学习模型已被广泛应用于整个计算机视觉领域，包括通用目标检测和特定领域目标检测。
大多数最先进的目标检测器利用深度学习网络作为其骨干和检测网络，分别从输入图像（或视频）、分类和定位中提取特征。对象检测是一种与计算机视觉和图像处理相关的计算机技术，它处理检测数字图像和视频中某一类（如人类、建筑物或汽车）语义对象的实例。对象检测的深入研究领域包括多类别检测、边缘检测、显着对象检测、姿势检测、场景文本检测、人脸检测、和行人检测等作为场景的重要组成部分。
此外，许多基准在对象中发挥了重要作用迄今为止的检测领域，例如 Caltech[1]、KITTI[2]、ImageNet[3]、PASCAL VOC[4]、MS COCO [5] 和 Open Images V5[6]。在 ECCV VisDrone 2018 大赛中，主办方发布了一个新的基于无人机平台的数据集 [7]，这个数据集包含一个大型图片和视频的数量。

图a，目标检测主要任务（图源网络，侵删，非原文图）

两类物体检测器

目前特定领域图像对象检测器通常可以分为两类，一类是两阶段检测器，最具代表性的是 Faster R-CNN [8]；另一种是一级检测器，如YOLO [9]、SSD [10]。

两级检测器具有较高的定位和物体识别精度，一级检测器具有较高的推理速度。两阶段检测器的两个阶段可以通过 RoI（Region of Interest）池化层来划分。例如，在 Faster R-CNN 中，第一阶段称为 RPN，一个区域提议网络，提议候选对象边界框；第二阶段，通过 RoIPool（RoI Pooling）操作从每个候选框提取特征，用于以下分类和边界框回归任务 [11]。图 1 (a) 显示了两级检测器的基本架构。

此外，一级检测器直接从输入图像中提出预测框而无需区域提议步骤，因此它们具有时间效率并可用于实时设备。图 1 (b) 展示了一级检测器的基本架构。

图 1. (a) 展示了两阶段检测器的基本架构，它由区域提议网络组成，将区域提议输入分类器和回归器。(b) 显示了一级检测器的基本架构，它直接从输入图像预测边界框。黄色立方体是骨干网络中具有相同分辨率的一系列卷积层（称为块），由于一个块后的下采样操作，后面的立方体的尺寸逐渐变小。厚蓝色立方体是一系列包含一个或多个卷积层的卷积层。扁平的蓝色立方体展示了 RoI 池化层，它为相同大小的对象生成特征图。

贡献

本综述侧重于描述和分析基于深度学习的目标检测任务。由于计算机视觉研究的快速发展，现有的调查总是涵盖一系列一般物体检测领域，但不包含最先进的方法，这些方法提供了一些新的解决方案和这些任务的新方向。

1）本文列出了最近提出的非常新颖的解决方案，不介绍基础知识，以便读者可以更轻松地看到该领域的前沿。 (2) 此外，与以往的物体检测调查不同，本文系统、全面地回顾了基于深度学习的物体检测方法，最重要的是最新的检测解决方案和一系列重要的研究趋势。（3）本综述的特点是多方面的深入分析和讨论，据我们所知，其中很多是该领域的第一次。

图b 目标检测算法发展流程（图源网络，侵删，非原文图）

2.骨干网络

骨干网络是目标检测任务的基本特征提取器，目标检测的主要任务是将图像作为输入并输出相应输入图像的特征图。大多数用于检测的主干网络是用于分类任务的网络，这些任务连接最后的全连接层。例如，林等人[15] 添加或减少图层或用特殊设计的图层替换一些图层。为了更好地满足特定要求，一些工作 [9] [16] 利用新设计的主干进行特征提取。

对于精度与效率的不同要求，人们可以选择更深且连接密集的主干网络，如 ResNet [11]、ResNeXt [17]、AmoebaNet [18] 或轻量级主干网络，如 MobileNet [19]、ShuffleNet [20]、SqueezeNet [21]、Xception [22]、MobileNetV2 [23]。

当应用于移动设备时，轻量级骨干网可以满足要求。王等人 [24] 通过将 PeleeNet 与 SSD [10] 相结合并优化架构以提高处理速度，提出了一种新颖的实时对象检测系统。为了满足高精度和更准确的应用需求，需要复杂的主干网络。另一方面，像视频或网络摄像头这样的实时获取不仅需要高处理速度，还需要高准确度 [9]，这需要精心设计的主干网以适应检测架构并在速度和准确度之间进行权衡。

图c 目标检测算法骨干网络（图源网络，侵删，非原文图）

为了探索更具竞争力的检测精度，采用更深且连接密集的主干来代替较浅且连接稀疏的对应物。He 等人[11] 利用 ResNet [25] 而不是 VGG [26] 来捕获在 Faster R-CNN [8] 中采用的丰富特征，由于其高容量，可以进一步提高精度。

新的高性能分类网络可以提高精度并降低目标检测任务的复杂性。这是进一步提高网络性能的有效方法，因为骨干网络充当特征提取器。众所周知，特征的好坏决定了网络性能的上限，因此是需要进一步探索的重要步骤。更多细节请参考[27]。

posted @ 2021-07-31 20:26 尚拙阅读(1880) 评论(0) 收藏举报

刷新页面返回顶部

基于深度学习的目标检测综述（一）：简介及骨干网络

公告