[Paper Reading] DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION
DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION
link
时间:2021(ICLR)
机构:Sensetime & USTC & CUHK
TL;DR
参考2D Deformable Conv,通过在Reference Point附近增加sample points,将DETR的收敛速度提升10倍,对于小目标效果也更好。
Method
背景知识:参考 DETR
核心思路:
1.Sample Points而非全局Points:每个Query与FeatureMap做Attention过程,仅与FeatureMap部分特征Attention,而不像DETR那样全部spatial feature都Attention,好处是计算量可以明显小。具体做法是Key的维度变为原来的3x倍,其中1x是原来的key(与query乘积softmax之后作为加权因子),剩下的2x用来预测2D的offset
2.Multi-Scale:从CNN Backbone中取出多尺度特征(不使用FPN),各自使用Deformable Attention。
Code: https://github.com/fundamentalvision/Deformable-DETR
Experiment
相对于原生DETR变慢,可能是Backbone计算量加太猛了,不过效果提升明显。
其实相对于传统非E2E的方法(例如 ATSS)也只是基本打平而已
总结与发散
无
相关链接
引用的第三方的链接
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律