(开集检测系列）MDETR - Modulated Detection for End-to-End Multi-Modal Understanding

caption数据+DETR做开集检测

1、动机

1、只在固定object和属性上训练，解决不了长尾的问题/开集

2、方法

2.1 优势

1、MDETR仅依赖于文本和对齐的框作为图像中概念形式进行监督；不像目标检测，这个文本概念是free-form,因此可以泛化到unseen 目标或者属性

2.2 架构图

流程图步骤：

1.image 通过conv网络提取特征，拉直并加上2-D的位置编码，产生image embedding
2.text经过预训练的语言模型产生text embedding
3.image embedding和text embedding分别经过线性投影层到相同特征空间
4.image embedding和text embedding进行concat,然后输入到transformer encoder,这里叫做cross encoder
5.然后接和DETR一样的transformer decoder，其中queries为text中个形容词+名词内容，然后根据名词+内容和box作为gt，来学习优化预测框（上图右边部分）

2.3 loss

Loss主要包括box预测loss(L1+GIoU)+soft-token prediction loss+contrastive alignment loss
其中box预测loss和DETR一致

2.3.1 soft-token prediction loss

该loss替代分类loss，可以理解为让text先后顺序编码为token，然后queries中先后输入名词+形容词，然后是queries输出对应的特征和text token中对应位置的weight最大
+1.text先后顺序编码为token，设置text的token最大长度为L=256
+2.queries输入text中的名词+形容词，各queries对应的输出的特征和text token中对应位置的weight最大

2.3.2 Contrastive alignment

网络decoder输出的object的embedding和cross encoder输出对应的文本的那个object的text embedding（这里的object的text emebedding和其他文本和图像做了cross attention）对齐（对比学习，和对应上的object文本特征拉近，不对应的文本特征远离）

3.效果

4.消融实验

无

5.其他

posted @ 2022-08-30 22:01 哈哈哈喽喽喽阅读(319) 评论(0) 收藏举报

刷新页面返回顶部

哈哈哈喽喽喽