YOLO 论文翻译及解释

你只看一次:统一的实时目标检测(2016年)

摘要

我们介绍了YOLO,一种新的目标检测方法。之前关于对象检测的工作将分类器重新调整为执行检测。不同的是,我们建立一个目标检测空间分隔边界盒及其关联类概率的回归问题。完整的图像直接通过一次单一神经网络评估边界框和类概率。因为整个检测管道是一个单一神经网络,它可以端到端进行优化直接作用检测性能。

注:之前关于对象检测的工作将分类器重新调整为执行检测。如Faster-RCNN,将VGG(一种CNN网络)重新调整为执行预测,即通过CNN网络对目标进行分类操作,然后提取建议区作为目标检测。YOLO第一版便只比VGG+RCNN的mAP低1.3,但是是唯一的实时目标检测器。YOLOv3时(2018年4月8日),Faster-RCNN w FPN才能勉强超过YOLOv3的精度了。YOLOv4时,YOLOv4不再专注于与RCNN系列比较。
住:统一是指,YOLO的网络并非使用其他网络构建而成的,没有拆分环节,不存在CNN网络进行分类,然后再提取建议区的two stage方法

我们的统一架构非常快。我们的基础YOLO模型实时处理45帧的图像。一个较小的网络版本,Fast YOLO,每秒处理令人震惊的155帧,仍然实现了其他实时检测器的两倍mAP。

与最先进的(state-of-the-art)检测系统比,YOLO产生更多的定位错误,但更少预测背景上的假阳性的可能。而且,YOLO比DPM、R-CNN等物体检测系统能够学到更加抽象的物体的特征,这使得YOLO可以从真实图像领域迁移到其他领域,如艺术。

Introduction

人可以瞥一眼图像并立刻知道图片中的物体是什么,它们在哪个位置,并且它们如何交互。人类视觉系统又快又精确,这允许我们以无意识中执行复杂诸如驾驶之类的任务。针对目标检测的快速、精确的算法将允许计算机不适用特殊设备进行驾驶,使辅助设备能够向人类使用者传送实时场景信息,并释放用于通用、响应性强的机器人系统的潜力。

当前的检测系统重新调整分类器以执行检测。为了侦测一个对象,这些系统需要该对象的分类器,并通过不同位置和缩放对测试图像对其进行评估。类似可变形部件模型(DPM)的系统使用滑动窗口方法,其中分类器在整个过程中以均匀间隔的位置运行整个图像。

最近的方法,如R-CNN使用区域建议方法以在一个图像中先生成潜在的边界框,然后在这些建议框中运行一个分类器。在分类后,后处理用于细化边界框,消除重复检测,并对基于场景中其他对象的盒子进行重新打分。这些复杂的管道速度慢且难以优化,因为每个独立组件必须分开训练。

我们将目标检测重塑为单个回归问题,

posted @ 2021-08-17 16:44  千心  阅读(219)  评论(0编辑  收藏  举报