外文资料翻译:YOLO v1 论文翻译
摘要
我们提出了一种新的目标检测方法YOLO。与以前关于目标检测的工作重新设置分类器来执行检测的方法不同,我们将目标检测作为回归问题,构建空间上分离的边界框和相关的类别概率。单个神经网络在一次评估中直接从完整图像预测边界框和类别概率。由于整个检测流程是单一网络,因此可以直接在检测性能上进行端到端的优化。
我们的这种统一架构速度非常快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。较小版本的网络Fast YOLO每秒处理155帧,同时仍然达到其他实时检测器mAP的两倍。与最先进的检测系统相比,YOLO会产生更多的定位误差,但不太可能预测出背景上的误报。最后,YOLO可以学习对象非常一般的表示。当从自然图像推广到其他领域(如艺术品)时,它优于包括DPM和R-CNN在内的其他检测方法。
1 引言
人类只需要瞥一眼图像就会立即知道图像中有什么物体,它们在哪里,以及它们之间的联系。人类的视觉系统快速而准确,使我们能够执行复杂的任务,例如在不需要过多思考的情况下驾驶。快速、准确的目标检测算法将允许计算机在没有专用传感器的情况下驾驶汽车,使辅助设备能够向人类用户传达实时场景信息,并释放用于通用响应机器人系统的潜力。
当前的检测系统重新利用分类器来执行检测。为了检测目标,这些系统为该目标提供分类器,并在不同位置对其进行评估,并在测试图像中进行缩放。像可变形零件模型(DPM)这样的系统使用滑动窗口方法,其中分类器在整个图像上以均匀间隔的位置运行[10]。
诸如R-CNN最近的方法使用候选区域方法,首先在图像中生成候选边界框,然后在这些候选框上运行分类器。分类后,后续的处理用于优化边界框,消除重复检测,并根据场景中的其他对象重新定位边界框[13]。这些复杂的流程很慢且难以优化,因为每个单独的组件必须单独进行训练。
我们将目标检测重构为单个回归问题,直接输入图像像素,输出边界框坐标和类概率。使用我们的系统,您只需在图像上查看一次(YOLO)即可预测出现的物体和位置。
YOLO简洁明了:参见图1,单个卷积网络能同时预测这些格子的多个边界框和类概率。YOLO直接训练整个图像并直接优化检测性能。与传统的目标检测方法相比,这种统一模型具有多种优势。
图1 YOLO检测系统。YOLO处理图像简单直接,(1)调整输入图像大小为448×448。(2)运行单个卷积网络处理图像。(3)用模型的置信度对检测结果进行阈值处理。
首先,YOLO非常快。由于我们将检测当作回归问题,因此不需要复杂的流程。我们只是在测试时在新图像上运行我们的神经网络来预测检测。在Titan X GPU上没有批处理,我们的基本网络以每秒45帧的速度运行,而快速版本的运行速度超过了150fps。这意味着我们可以实时处理流媒体视频,延迟时间少于25毫秒。此外,YOLO的平均精度是其他实时系统的两倍多。有关我们系统在网络摄像头上实时运行的演示,请参阅我们的项目网页:http://pjreddie.com/yolo/。
其次,YOLO在预测时可以整体检测图像。与基于滑动窗口和候选区域的方法不同,YOLO在训练和测试期间查看整个图像,因此它会隐式编码有关类的上下文信息及其外观。Fast R-CNN是一种顶级检测方法[14],由于它无法看到更大的上下文所以在图像中将背景错误地检测成了目标。YOLO的背景误差数量不到Fast R-CNN的一半。
第三,YOLO学习目标的泛化表示。在对自然图像进行训练并对艺术作品进行测试时,YOLO大大优于DPM和R-CNN等顶级检测方法。由于YOLO具有很高的通用性,因此在应用于新领域或产生意外输入时不太可能发生故障。
YOLO在准确性方面仍然落后于最先进的检测系统。虽然它可以快速识别图像中的物体,但它很难精确地定位某些物体,尤其是小物体。我们在实验中进一步研究了如何权衡这些方面。
我们所有的训练和测试代码都是开源的。还提供各种预训练模型可供下载。
2 统一检测
我们将目标检测的单独组件集成到一个神经网络中。我们的网络使用整个图像中的特征来预测每个边界框。它同时还预测所有类的所有边界框。这意味着我们的网络全局了解整个图像和图像中的所有对象。YOLO的设计支持端到端训练和实时检测速度,同时保持较高的平均精度。
我们的系统将输入图像划分成个网格。如果物体的中心点落在某个网格中,则该网格负责检测该物体。
每个网格预测个边界框和每个边界框的(置信度)。这些置信度反映了模型对该边界框包含物体的信心程度,以及边界框位置预测的准确程度。在形式上我们将置信度定义为。如果该网格中不存在对象,则应为零。否则,我们希望等于预测边界框与真实边界框之间的(交并比)。
每个边界框由5个预测值组成:,,,,。坐标表示相对于网格边界框的中心点坐标。,是相对于整个图像预测边界框的宽度和高度。最后,预测边界框和真实边界框之间的。
每个网格单元还预测个条件类概率。这些概率以网格中包含物体为条件。我们只预测每个网格的一组类概率,而不管边界框的数量。
在测试时,我们将条件类概率与单个边界框框相乘,
给出了每个边界框在特定类别的置信度分数。这些分数编码该类出现在框中的概率以及预测框与该物体的拟合程度。
为了在Pascal VOC数据集上评估YOLO,我们使用。Pascal VOC有20个标记类,所以。我们的最终预测结果是的张量。
图2 网络模型。我们的模型将检测当做一个回归问题,网络将输入图像划分成个网格,每个网格预测个边界框,这些边界框的,以及个条件类概率。这些预测被编码为一个的张量。
2.1 网络设计
我们将此模型用卷积神经网络来实现,并在Pascal VOC检测数据集上进行评估[9]。网络的初始卷积层从图像中提取特征,而全连接层预测输出的类概率和坐标。
我们的网络架构受到图像分类网络GoogLeNet的启发[34]。我们的网络包含24个卷积层,接着是2个全连接层。不同于GoogLeNet使用的Inception模块,我们使用类似于Lin等人的结构[22],一个降维层,然后是卷积层。完整的网络如图3所示。
我们还训练了快速版的YOLO,旨在突破快速目标检测的界限。Fast YOLO使用了较少的卷积层(9层而不是24层)的神经网络,并且在这些层中使用较少的滤波器。除了网络的大小,YOLO和Fast YOLO之间的所有训练和测试参数都是相同的。
我们的网络的最终输出是的预测张量。
图3 网络架构。我们的检测网络包含24个卷积层和2个全连接层,交替使用卷积层降低前一层的特征空间。我们使用一半(输入图像)的输入在ImageNet图像分类任务中预训练卷积层,然后在检测时将输入加倍。
2.2 训练
我们在ImageNet 1000类数据集[30]上预训练我们的卷积层。对于预训练,我们使用图3中的前20个卷积层,然后是平均池化层和全连接层。我们训练了这个网络大约一周时间,并在ImageNet 2012验证集上获得了88%的准确率排名位于前5名,与Caffe上训练的模型中的GoogLeNet模型相当[24]。我们使用Darknet框架进行所有训练和预测[26]。
然后我们转化网络以执行检测。Ren等人提出将卷积层和全连接层添加到预训练网络中可以提高性能[29]。按照他们的示例,我们添加了四个卷积层和两个全连接层,并随机初始化权重。检测通常需要细粒度的视觉信息,因此我们将网络的输入分辨率从增加到。
我们在最后一层预测了类概率和边界框坐标。我们将边界框宽度和高度标准化为图像宽度和高度,使它们落在0和1之间。我们将边界框和坐标参数化为特定网格位置的偏移量,因此它们也是有界的,介于0和1之间。
我们对最后一层使用线性激活函数,其他层使用以下线性激活函数:
我们优化模型输出中的求和平方误差。我们使用求和平方误差,因为它很容易优化,但它与我们最大化平均精度的目标并不完全一致。它将定位误差与分类误差相等地加权,这可能并不理想。此外,在每个图像中,有许多网格不包含任何物体。这将这些网格的置信度分数趋于零,通常会抑制包含对象的网格的梯度渐变。这可能导致模型不稳定,导致训练在早期出现发散。
为了解决这个问题,我们增加了边界框坐标预测损失的权重,并减少了不包含对象的框的置信度预测损失权重。我们使用两个参数和来完成此任务。 我们设置和。
求和误差也同样可以加大大框和小框中的误差。我们的误差度量应该反映出大框中的小偏差影响比小框中的小。为了解决这个问题,我们直接预测边界框宽度和高度的平方根,而不是宽度和高度。
YOLO预测每个网格有多个边界框。在训练时,我们希望一个边界框只负责检测一个物体。我们根据具有和真实物体位置最大的边界框,将一个预测器分配给这个网格。这导致边界框预测变量都负责预测特定的物体。每个预测变量都能更好地预测边界框大小,宽高比或物体类别,从而提高整体召回率。
在训练期间我们优化以下的损失函数:
其中的表示目标是否出现在网格中,以及第个网格中的第个边界框负责预测。
注意,如果目标存在于该网格中,则损失函数仅惩罚分类损失(因此前面讨论条件类概率)。如果该预测器负责预测真实边界框(即该网格中具有所有预测器的最高),它也仅考虑边界框坐标误差。
我们在PASCAL VOC 2007和2012的训练和验证数据集上进行了大约135个epoch的网络训练。在PASCAL VOC 2012进行测试时,我们也包含了VOC 2007的测试数据用来训练。在整个训练过程中,我们使用的批大小为,动量为,衰减为。
我们的学习率方案如下:对于第一个epoch,我们将学习率从慢慢提高到。如果我们从高学习率开始训练的话,我们的模型通常会因梯度不稳定而发散。我们继续训练以的学习率训练75个epoch,再以的学习率训练30个epoch,最后用的学习率训练30个epoch。
为了避免过度拟合,我们使用了丢失和大量的数据增强。在第一个连接层之后,速率为的丢失层阻止了层之间的联合性[18]。对于数据增强,我们引入了原始图像大小的随机缩放和转换。我们还在HSV色彩空间中随机调整图像的曝光和饱和度,最高可达。
2.3 推断
就像在训练时一样,预测测试图像的检测只需要进行一次网络评估。在PASCAL VOC上,网络为每个图像预测98个边界框和每个框的类概率。YOLO在测试时非常快,因为它只需进行一次网络评估,这与基于分类器的检测方法不同。
网格设计在边界框预测中强制实现空间多样性。通常我们很清楚一个对象落入哪个网格中,并且网络仅为每个目标预测一个边界框。然而,一些比较大的目标或者跨越多个网格边界的目标可以被多个网格检测出来。非极大值抑制可以用来修正这些多重检测。虽然对于R-CNN或DPM而言,性能并不是最关键的,但非极大值抑制还是能增加2-3%的mAP。
2.4 YOLO的局限性
YOLO对边界框预测施加了强大的空间约束,因为每个网格只预测两个边界框,并且只能有一个类。这种空间约束限制了我们的模型可以预测的附近目标的数量。我们的模型在图像中出现成群的小物体时会出现目标间的竞争,例如成群的鸟类。
由于我们的模型从数据中学习如何预测边界框,因此很难在新的或不寻常的宽高比或配置中推广。我们的模型也使用相对粗略的特征来预测边界框,因为我们的架构来自输入图像的多个下采样层。
最后,当我们训练一个近似检测性能的损失函数时,我们的损失函数会同等对待在小边界框和大边界框的损失。大边界框中的小误差通常是良性的,但小边界框中的小误差对的影响则要大得多。我们的主要错误来源是检测定位误差。
3 与其他检测系统的比较
目标检测是计算机视觉中的核心问题。检测流程通常首先从输入图像中提取一组鲁棒特征开始(Haar[25],SIFT[23],HOG[4],卷积特征[6])。然后,分类器[36,21,13,10]或定位器[1,32]用于识别特征空间中的目标。这些分类器或定位器在整个图像或图像中的某些子区域上以滑动窗口的方式运行[35,15,39]。我们将YOLO检测系统与几个顶级检测框架进行了比较,突出了主要的相似点和不同点。
可变形组件模型。可变形组件模型(DPM)使用滑动窗口方法进行物体检测[10]。DPM使用不相交的流程来提取静态特征,对区域进行分类,预测高分区域的边界框等。我们的系统用单个卷积神经网络来替换所有这些不同的部分。网络同时执行特征提取,边界框预测,非极大值抑制和上下文推理。网络的功能不是静态功能,而是在线训练的,并针对检测任务进行优化。我们的统一架构使得模型比DPM更快,更准确。
R-CNN。R-CNN及其变体使用候选区域而不是滑动窗口的方法来检测图像中的目标。选择性搜索[35]生成潜在的边界框,卷积网络提取特征,SVM对边界框进行评分,线性模型调整边界框,非极大值抑制消除重复检测。这个复杂流程的每个阶段都必须独立地进行精确调整,得到的系统非常慢,在测试时每个图像需要超过40秒的时间[14]。
YOLO与R-CNN有一些相似之处。每个网格提出潜在的边界框,并使用卷积特征对这些边界框进行评分。但是,我们的系统对网格预测设置了空间限制,这有助于减少同一目标的多次检测问题。我们的系统还提出了更少的边界框,每个图像只有98个,而选择性搜索则有2000个。最后,我们的系统将这些单独的组件组合成一个单一的联合优化的模型。
其他快速检测系统。Fast R-CNN和Faster R-CNN专注于通过共享计算和使用神经网络代替选择性搜索来提出区域加速R-CNN框架[14][28]。虽然它们提供了比R-CNN更快的速度和准确度,但两者仍然没有达到实时性能。
许多研究工作都集中在加速DPM流程上[31][38][5]。它们使用级联加速HOG计算,并将计算泛化到GPU上。但是,实际上只有30Hz的DPM[31]是可以实时运行的。
YOLO没有尝试优化大型检测流程的各个组件,而是完全抛出流程,设计为快速检测。
单个类(如人脸或人)的检测器可以进行高度优化,因为它们必须处理更少的变化[37]。YOLO是一种通用检测器,可以同时检测多种物体。
Deep MultiBox。与R-CNN不同,Szegedy等人训练卷积神经网络而不是使用选择性搜索来预测感兴趣的区域[8]。MultiBox还可以通过用单个类预测替换置信度预测来执行单个目标检测。但是,MultiBox无法执行通用目标检测,并且仍然只是更大的检测流程中的一部分,需要进一步的图像块分类。YOLO和MultiBox都使用卷积网络来预测图像中的边界框,但YOLO是一个完整的检测系统。
OverFeat。Sermanet等人训练卷积神经网络以执行定位并调整定位器以执行检测[32]。OverFeat有效地执行滑动窗口检测,但它仍然是一个不相交的系统。OverFeat优化了定位,而不是检测性能。与DPM一样,定位器在进行预测时只能查看局部信息。OverFeat无法推断全局上下文,因此需要进行大量的后处理才能产生相关检测。
MultiGrasp。我们的工作在设计上类似于Redmon等人[27]的抓取检测。我们的网格预测边界框的方法基于MultiGrasp系统抓取的回归分析。然而,抓取检测是比目标检测简单得多的任务。MultiGrasp只需要为包含一个目标的图像预测一个可抓取的区域。它不必估计目标的大小,位置或边界或预测它的类别,只需要找到适合抓取的区域。YOLO预测图像中多个类别的多个目标的边界框和类概率。
4 实验
首先,我们将PASCAL VOC 2007上的YOLO与其他实时检测系统进行比较。为了理解YOLO和R-CNN变体之间的区别,我们探讨了YOLO和R-CNN最高性能的版本之一Fast R-CNN[14]对于VOC 2007的误差。基于不同的错误配置文件,我们展示了YOLO可用于重新调整Fast R-CNN检测并减少背景误报的错误,从而显著提升性能。我们还展示了在VOC 2012上的结果,并与当前最先进的方法比较了mAP。最后,在两个艺术品数据集上我们展示了YOLO比其他检测器能更好地推广到新领域。
4.1 与其他实时系统的比较
目标检测方面的许多研究工作都集中在快速制定标准检测流程上[5][38][31][14][17][28]。但是,只有Sadeghi等人实际上产生了一个实时运行的检测系统(每秒30帧或更好)[31]。我们将YOLO与他们在30Hz或100Hz下运行的DPM的GPU实现进行比较。虽然其他工作没有达到实时性的里程碑,但我们还比较了它们的相对mAP和速度,以检查目标检测系统中精度——性能的权衡。
Fast YOLO是PASCAL上最快的目标检测方法,据我们所知,它也是现存最快的目标检测器。凭借52.7%的mAP,它的准确率是过去实时检测的两倍多。YOLO在保持实时性能的同时将mAP提高到了63.4%。
我们还使用VGG-16训练了YOLO。这个模型比YOLO更准确但也明显更慢。与其他依赖VGG-16的检测系统相比它非常有效,但由于它达不到实时系统的速度要求,本文的其余部分还是主要关注我们的快速模型。
Real-Time Detectors | Train | mAP | FPS |
100Hz DPM[31] | 2007 | 16.0 | 100 |
30Hz DPM[31] | 2007 | 26.1 | 30 |
Fast YOLO | 2007+2012 | 52.7 | 155 |
YOLO | 2007+2012 | 63.4 | 45 |
Less Than Real-Time | |||
Fastest DPM[38] | 2007 | 30.4 | 15 |
R-CNN Minus R[20] | 2007 | 53.5 | 6 |
Fast R-CNN[14] | 2007+2012 | 70.0 | 0.5 |
Faster R-CNN VGG-16[28] | 2007+2012 | 73.2 | 7 |
Faster R-CNN ZF[28] | 2007+2012 | 62.1 | 18 |
YOLO VGG-16 | 2007+2012 | 66.4 | 21 |
表1:PASCAL VOC 2007上的实时系统。比较快速检测器的性能和速度。Fast YOLO是PASCAL VOC上速度最快的检测器,其精度是其它实时检测器的两倍。
YOLO比Fast YOLO的mAP高10,同时在速度上仍保持实时性。
最快的DPM可以在不牺牲太多mAP的情况下有效地加速DPM,但它仍然将实时性能降低了2倍[38]。与神经网络方法相比,它还受到DPM检测精度相对较低的限制。
减去R的R-CNN用静态边界框提议取代选择性搜索[20]。虽然它比R-CNN快得多,但它仍然达不到实时性,并且由于没有好的建议而受到很大的准确性影响。
Fast R-CNN加速了R-CNN的分类阶段,但它仍然依赖于选择性搜索,每个图像大约需要2秒才能生成边界框提议。因此虽然它具有高mAP,但是速度只有0.5fps,仍然远远达不到实时速度要求。
4.2 VOC 2007误差分析
为了进一步研究YOLO和最先进的检测器之间的差异,我们将详细分析在VOC 2007上的结果。我们将YOLO与Fast R-CNN进行比较,因为Fast R-CNN是PASCAL上性能最高的检测器之一,它的检测是公开的。
我们使用Hoiem等人[19]的方法和工具。对于测试时的每个类别,我们查看该类别的前N个预测。每个预测都是正确的,或者根据错误类型进行分类:
·Correct:正确类别且
·Localization:正确类别,
·Similar:类别相似,
·Other:类别错误,
·Background:任何的对象
图4显示了在所有的20个类别上每种错误类型平均值的细分图。
图4:误差分析:Fast R-CNN vs. YOLO。这些图显示了各种类别的前N个预测中定位错误和背景错误的百分比(N = #表示目标在那个类别中)。
YOLO努力准确地定位目标。定位错误占YOLO错误的大多数,比其他所有错误源加起来都多。Fast R-CNN使定位错误更少,但背景错误更多。其顶级检测的13.6%是不包含任何目标的误报。与YOLO相比,Fast R-CNN预测背景误报的可能性几乎高出3倍。
4.3 结合Fast R-CNN和YOLO
与Fast R-CNN相比,YOLO的背景误报错误要少得多。通过使用YOLO消除Fast R-CNN的背景检测错误,我们可以显著提升性能。对于R-CNN预测的每个边界框,我们检查YOLO是否预测了类似的框。如果确实如此,我们会根据YOLO预测的概率和两个框之间的重叠来提高该预测得分。
最好的Fast R-CNN模型在VOC 2007测试集上达到了71.8%的mAP。与YOLO结合使用后,其mAP增加了3.2%从而达到75.0%。我们还尝试将最佳Fast R-CNN模型与其他几个版本的Fast R-CNN相结合。这些结合的mAP产生了0.3%到0.6%的小幅增加,详见表2。
mAP | Combined | Gain | |
Fast R-CNN | 71.8 | - | - |
Fast R-CNN(2007 data) | 66.9 | 72.4 | .6 |
Fast R-CNN(VGG-M) | 59.2 | 72.4 | .6 |
Fast R-CNN(CaffeNet) | 57.1 | 72.1 | .3 |
YOLO | 63.4 | 75.0 | 3.2 |
表2:VOC 2007模型组合实验。我们检验了各种模型与Fast R-CNN最佳版本结合的效果。Fast R-CNN的其它版本只提供很小的性能提升,而YOLO则提供了显著的性能提升。
YOLO带来的性能提升不仅仅是模型集成的副产品,因为组合不同版本的Fast R-CNN几乎没有什么好处。相反,正是因为YOLO在测试时犯了不同类型的错误,才能提升Fast R-CNN的性能。
不幸的是,这种组合并没有受益于YOLO的速度,因为我们单独训练了每个模型然后结合结果。然而,由于YOLO与Fast R-CNN相比如此之快,因此它不会显著增加计算时间。
4.4 VOC 2012的结果
在VOC 2012测试集上,YOLO的mAP为57.9%。这低于目前的技术水平,更接近于使用VGG-16的原始R-CNN,参见表3。与最接近的竞争对手相比,我们的系统在检测小物体时更加困难。在瓶子,绵羊和电视/显示器等类别上,YOLO的得分比R-CNN或Feature Edit低8-10%。然而,在其他类别,如猫和火车上,YOLO实现了更高的性能。
表3:PASCAL VOC 2012排行榜。截至2015年11月6日,YOLO与完整comp4(允许外部数据)公开排行榜进行了比较。
显示了各种检测方法的平均精度均值和每类的平均精度。YOLO是唯一的实时检测器。Fast R-CNN + YOLO是评分第四高的方法,比Fast R-CNN提升了2.3%。
我们的Fast R-CNN + YOLO组合模型是性能最高的检测方法之一。Fast R-CNN从与YOLO的组合中获得了2.3%的改善,使其在公共排行榜上增加了5个点。
4.5 泛化能力:艺术品中的行人检测
用于对象检测的学术数据集从相同分布中提取训练和测试数据。在实际应用中,很难预测所有可能的用例,测试数据可能与系统之前的情况有所不同[3]。我们将YOLO与Picasso数据集[12]和People-Art数据集[3]上的其他检测系统进行比较,这两个数据集用于测试艺术品上的人物检测。
图5显示了YOLO与其他检测方法之间的性能比较。作为参考,我们提供了只在VOC 2007上训练的模型的检测AP。Picasso模型在VOC 2012上训练,而People-Art模型在VOC 2010上训练。
图5:Picasso和People-Art数据集上的泛化结果。
R-CNN在VOC 2007上有很高的AP。然而,当应用于艺术品时,R-CNN的性能就显著下降。R-CNN使用选择性搜索来调整自然图像的边界框提议。R-CNN中的分类器步骤只能看到小区域,需要很好的边界框提议。
当应用于艺术品时,DPM可以很好地保持它的AP。之前的工作认为DPM表现良好,是因为它具有强大的物体形状和布局的空间模型。虽然DPM不像R-CNN那样退化,但它的起始AP比较低。
YOLO在VOC 2007上具有良好的性能,并且当应用于艺术品时,其AP比其他方法降低得更少。与DPM一样,YOLO建模目标的大小和形状,以及目标和目标通常出现的位置之间的关系。艺术品和自然图像在像素级别上有很大不同,但它们在目标的大小和形状方面相似,因此YOLO仍然可以预测良好的边界框和产生检测结果。
图6:定性结果。YOLO在网络采样的艺术品和自然图像上的运行结果。虽然它将人误检成了飞机,但它大部分上是准确的。
5 现实环境下的实时检测
YOLO是一款快速,精确的目标检测器,非常适合计算机视觉应用。我们将YOLO连接到网络摄像头并验证它是否保持实时性能,计时包括从相机获取图像并显示检测结果的时间。
由此产生的系统具有交互性和参与式。虽然YOLO可以单独处理图像,但当连接到网络摄像头时,它的功能类似于追踪系统,在物体移动或改变外观时时检测物体。可在我们的项目网站上找到系统演示和源代码:http://pjreddie.com/yolo/。
6 结论
我们介绍了YOLO,一种用于物体检测的统一模型。我们的模型构造简单,可以直接在完整图像上进行训练。与基于分类器的方法不同,YOLO针对与检测性能直接对应的损失函数进行训练,并且整个模型联合训练。
Fast YOLO是文献中最快的通用目标探测器,YOLO在实时目标探测中引领了最先进的技术。YOLO还可以很好地推广到新领域,使其成为依赖快速,强大的目标检测应用的理想选择。
致谢:这项工作得到了ONR N00014-13-1-0720,NSF IIS-1338054和艾伦杰出研究者奖的部分支持。