End-to-End Object Detection with Transformers

End-to-End Object Detection with Transformers

2020-05-27 11:05:14

Paper: https://arxiv.org/pdf/2005.12872.pdf

Code: https://github.com/facebookresearch/detr

Blog: https://ai.facebook.com/blog/end-to-end-object-detection-with-transformers

Youtube Tutorial: https://www.youtube.com/watch?v=T35ba_VXkMY

Extension：Deformable DETR: Deformable Transformers for End-to-End Object Detection, Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai [arXiv]

Facebook 的工作，构建了一种基于 transformer 的物体检测框架。大致结构如下图所示：

给定图像，先用 CNN 抽取其特征，然后用 transformer 结构来直接预测得到 BBox 的结果。一般来讲，作者会预测得到非常多的框框，同时为了 loss 的计算，作者也对 GT 的 BBox 进行填充。

本文所提出的 DETR model 有两个不可缺少的部分：

1). a set prediction loss, 用于计算预测和真值之间的差异；

2). an architecture, 预测一组物体并且建模他们之间的关系。

1. DETR 会直接推理出一组固定大小的 N 个预测结果，通过 decoder 可以一次搞定这个事情。这里的 N 会明显的比常规物体个数要多。训练的一个困难是，对预测的物体进行打分，关于 class, position, size 等。本文的 loss 产生了一个最优的二值匹配，然后优化一个 object-specific losses。

为了计算预测的 BBox 和真值 BBox 两个集合之间的差异，作者利用如下的方式，得到 N 个元素的置换：