cvpr2017 object detection

(1)Feature Pyramid Networks for Object Detection
利用简单设计的多层网络融合策略有效解决多尺度目标定位困难的问题.
其主要考虑利用深度卷积网络固有的多尺度金字塔形层次结构来构建特征金字塔,创建了一个具有横向连接的自顶向下架构用于在所有尺度上构建高级语义特征图,FPN作为通用特征提取器表现优异,论文研究表明,尽管深度ConvNets具有强大的表达能力和对尺度变化内在的鲁棒性,使用金字塔表示来明确地解决多尺度问题仍然是重要的。

(2)A-Fast-RCNN: Hard positive generation via adversary for object detection
将对抗学习和Fast R-CNN结合,来增加遮挡和姿态变化的物体的数量。
其主要考虑学习一个对于遮挡和形变具有不变性的目标检测器,收集各种状态目标的大数据集的数据驱动策略存在一定问题,比如遮挡和形变服从长尾理论,因此提出学习一个对抗网络(ASTN,ASDN)生成具有遮挡和形变的困难样本,通过生成器与检测器的博弈,提升目标检测器对于各种状态物体的整体目标检测性能。

(3)YOLO9000: Better, Faster, Stronger
其为YOLO升级版,其对YOLO方法作了一些改进,Better方面考虑(Batch Normalization, High Resolution, Anchor Boxes, Dimension Clusters, Direct location prediction, Fine-Grained Features, Multi-Scale Training),Faster方面提出一个新的Darknet-19结构。除此之外,其提出一个方法在目标检测数据集与图像分类数据集上联合训练,主要构建了一个视觉内容分层树结构WordTree。
这个文章在介绍YOLOv2的时候,像是在看实验技术报告……因为介绍了各种trick和具体的训练策略。但是创新的地方还是很有趣的,比如YOLO9000提出的WordTree,以及Multi-scale training,不同的输入,原来是可以共享一个网络的。

(4)RON: Reverse Connection with Objectness Prior Networks for Object Detection
将基于区域和不基于区域的方法的优点联系起来
其主要考虑两个问题,多尺度目标定位和负样本挖掘,并分别提出Reverse Connection使得网络能在CNN多尺度检测目标和Objectness Prior减少目标的搜索空间,最后通过多任务损失联合优化Reverse Connection、Objectness Prior和目标检测器。

(5)Speed/accuracy trade-offs for modern convolutional object detectors
这篇文章主要权衡了三种被称为“元结构”(meta-architectures)的主流detector—Faster R-CNN,R-FCN 和SSD之间的精确率与速度。
其主要考虑三种检测器(Faster RCNN,R-FCN,SSD)作为元结构,三种CNN网络(VGG,Inception,ResNet)作为特征提取器,变化其他参数如图像分辨率、proposals数量等,研究目标检测系统准确率与速度的权衡关系。

(6)Accurate Single Stage Detector Using Recurrent Rolling Convolution
本文直观的理解就是对SSD 嵌入 contextual information 使其可以同时检测大目标和小目标。
其提出一个新型端到端训练目标检测网络,在多尺度特征图引入Recurrent Rolling Convolution结构创建“deep in context”的分类器和回归器,其主要也是考虑“top-down/bottom-up”的特征集成。

(7)Mimicking Very Efficient Network for Object Detection
Mimic作为一种模型小型化的方法,Hinton在 Distilling the Knowledge in a Neural Network一文中已经详细定义并介绍过,但近些年来大部分有关于mimic的论文主要都是局限在较为简单的classification 的任务中,而对于较为复杂一些的detection任务,直接套用以前的方案则显得不行。本文提出了一种学习feature map来实现Object Detection任务上mimic的方法。

当前目标检测器都需要从预训练ImageNet分类模型初始化,其相比从零开始训练能达到更好的效果,而预训练图像分类模型对于检测任务并非最优的,其主要考虑训练高效检测器而不需要ImageNet的预训练。其研究已有的一个满足检测表现的网络如何指导其他网络的训练,即利用一个检测网络监督另一个更高效的网络并保持准确率,其提出特征mimic技术。

(8)Perceptual Generative Adversarial Networks for Small Object Detection
2017CVPR 新鲜出炉的paper,这是针对small object detection的一篇文章,采用PGAN来提升small object detection任务的performance。
PGAN为什么对small object有效?具体是这样,small object 不好检测,而large object好检测,那PGAN就让generator 学习一个映射,把small object 的features 映射成 large object 的features,然后就好检测了。PGAN呢,主要就看它的generator。
传统GAN中的generator是学习从随机噪声到图像的映射,也就是generator可以把一个噪声变成图片,而PGAN的思想是让generator把small object 变成 large object,这样就有利于检测了。 来看看文章中的原话都是怎么介绍generator的:

小目标因其低分辨率和噪声表示检测困难,现有方法主要考虑在多尺度学习所有目标的特征表示,其受限于计算复杂度。其主要考虑建立单个架构来解决小目标检测问题,该架构将小目标的表示提升到“super-resolved”,从而实现与大目标类似的特征,从而对于检测任务更加具有辨别能力。利用生成式对抗网络,其提出Perceptual GAN模型,通过缩小小目标与大目标的表示差异来改善小目标检测。
分割:
Fully Convolutional Instance-aware Semantic Segmentation
COCO2016分割冠军,在全卷积的框架下,利用 fg/bg score maps 对ROI区域内进行像素级分割。

网络结构:
Active Convolution: Learning the Shape of Convolution for Image Classification
可形变的卷基层,针对图像中物体的形变问题。与jifeng组的文章 Deformable Convolutional Networks idea类似

posted on 2017-09-12 17:35  MissSimple  阅读(437)  评论(0编辑  收藏  举报

导航