论文阅读：Deformable ConvNets v2

论文地址：http://arxiv.org/abs/1811.11168

作者：pprp

时间：2019年5月11日

0. 摘要

DCNv1引入了可变形卷积，能更好的适应目标的几何变换。但是v1可视化结果显示其感受野对应位置超出了目标范围，导致特征不受图像内容影响（理想情况是所有的对应位置分布在目标范围以内）。

为了解决该问题：提出v2, 主要有

扩展可变形卷积，增强建模能力
提出了特征模拟方案指导网络培训：feature mimicking scheme

结果：性能显著提升，目标检测和分割效果领先。

1. 简介

Geometric variations due to scale, pose, viewpoint and part deformation present a major challenge in object recognition and detection.

目标检测一个主要挑战：尺度，姿势，视角和部件变形引起的几何变化

v1 引入两个模块：

Deformable Convolution : 可变形卷积
- 通过相对普通卷积基础上添加的偏移解决
Deformable RoI pooling : 可变形 RoI pooling
- 在RoI pooling 中的bin学习偏移

为了理解可变形卷积，进行了可视化操作：

samples for an activation unit tend to cluster around the object on which it lies.
激活单元样本点聚集在目标附近
但是覆盖范围不够精确，超出the area of interest

由此提出DCNv2, 具有增强建模的能力，可用于学习可变形卷积

with enhanced modeling power for learning deformable convolutions.

添加了两种互补的模式：

更广泛应用可变形卷积，在更多层上使用可变形卷积
在原有基础上不仅加上偏移（offset），而且加上幅值（amplitude）的控制

为了充分利用可变形卷积提取的信息，吸取知识蒸馏的手段，进行培训。

教师网络：R-CNN, 针对裁剪内容进行分类的一个网络，防止学习不在目标范围以外的内容
学生网络：Faster R-CNN

2. 可变形卷积行为分析

2.1 空间支持可视化

可视化三个内容：

有效感受野：可视化感受野
有效采样位置：对采样点求梯度，然后可视化
误差界限显著性区域：参考显著性分析理论，进行可视化

2.2 可变形网络空间支持

Faster R-CNN中Conv1-Conv4使用在Head中的，Conv5使用在Classification network上

ResNet-50 Conv5里边的3$\times$3的卷积层都使用可变形卷积替换。Aligned RoI pooling 由 Deformable RoI Pooling取代，当offset学习率设置为0，那么Deformable RoI Pooling就退化为Aligned RoI Pooling。 ps: 这是V1中的操作。