[Paper Reading] DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

link
时间：2021(ICLR)
机构：Sensetime & USTC & CUHK

TL;DR

参考2D Deformable Conv，通过在Reference Point附近增加sample points，将DETR的收敛速度提升10倍，对于小目标效果也更好。

Method

背景知识：参考 DETR
核心思路：
1.Sample Points而非全局Points：每个Query与FeatureMap做Attention过程，仅与FeatureMap部分特征Attention，而不像DETR那样全部spatial feature都Attention，好处是计算量可以明显小。具体做法是Key的维度变为原来的3x倍，其中1x是原来的key（与query乘积softmax之后作为加权因子），剩下的2x用来预测2D的offset

2.Multi-Scale：从CNN Backbone中取出多尺度特征(不使用FPN)，各自使用Deformable Attention。