YOLOv3的论文详解

引言

YOLOv3发布了，但是正如作者所说，这仅仅是他们近一年的一个工作报告（TECH REPORT），不算是一个完整的paper，因为他们实际上是把其它论文的一些工作在YOLO上尝试了一下。相比YOLOv2，我觉得YOLOv3最大的变化包括两点：使用残差模型和采用FPN架构。YOLOv3的特征提取器是一个残差模型，因为包含53个卷积层，所以称为Darknet-53，从网络结构上看，相比Darknet-19网络使用了残差单元，所以可以构建得更深。另外一个点是采用FPN架构（Feature Pyramid Networks for Object Detection）来实现多尺度检测。YOLOv3采用了3个尺度的特征图（当输入为416 x 416时)：(13 x 13), (26 x 26),(52 x 52) ，VOC数据集上的YOLOv3网络结构如图15所示，其中红色部分为各个尺度特征图的检测结果。YOLOv3每个位置使用3个先验框，所以使用k-means得到9个先验框，并将其划分到3个尺度特征图上，尺度更大的特征图使用更小的先验框，和SSD类似。

论文地址：YOLOv3: An Incremental Improvement.