Multi-scale Interactive Network for Salient Object Detection

Multi-scale Interactive Network for Salient Object Detection

CVPR20

摘要

本文提出MINet。在编码器中使用聚合交互模块AIM(aggregate interaction modules)来聚合相邻level的特征,由于仅使用小的up/down采样率,引入了很少噪声。在解码器中使用自交互模型SIM(self-interaction module)来利用multi-scale特征。

由于尺度变化造成类别不平衡,这削弱了交叉熵的效果,也造成预测的空间不一致性。因此本文提出consistency-enhanced loss强调前景背景的差异,保持类间一致性。

网络结构

图2左列是encoder-transport layer的连接方式,右列是transport layer-decoder的连接方式。

图中d是AIM聚合交互模块,h是SIM自交互模块

Snipaste_2020-11-08_09-39-56

图3是整体的结构,图示是采用VGG16做特征提取,本文移除vgg的最后一个max-pooling层来保持最后一个卷积层的细节信息。每个AIM利用相邻level的特征,为本分辨率(主分支)提供有效的补充。SIM从特定level提取multi-scale特征,FU由conv+bn+relu组成,FU融合SIM的特征,并输入到前一层里。

Snipaste_2020-11-08_10-05-14

输入320x320x3的图像, 使用vgg16提取multi-level特征,使用AIM聚合特征,通过SIM和FU进一步处理,在 g 的监督下生成预测 p。

在AIM中主分支B1,SIM中主分支B0均由辅助分支补充信息,

AIMs

受[54]启发,提出AIM,

图4是聚合交互模块的细节图

Snipaste_2020-11-08_09-45-50

在不同level做融合会增强不同分辨率图的表达能力:在浅层融合可进一步增强细节信息并抑制噪声。在中间层融合可以同时考虑语义信息和细节信息,且网络会自动调整不同信息的比例。在顶层融合考虑相邻分辨率时会挖掘丰富的语义信息。

f 表示vgg提取的特征,在transformation步做conv+bn+relu。在interaction步通过pooling+近邻插值+conv将辅助分支(B0 B2)合并到B1支。通过conv把三支fuse,同时有一个残差连接。

如公式1,I是identity mapping,M是brach merging。第一行公式的+号表示残差连接

Snipaste_2020-11-08_10-45-25

SIMs

图5是自交互模块的细节图

Snipaste_2020-11-08_09-46-26

也遵循transformation-interaction-fusion策略,先使用升/降采样把特征图的分辨率统一。

公式2,+号表示SIM的残差连接

Snipaste_2020-11-08_10-54-20

公式3,

Snipaste_2020-11-08_10-55-06

\(f_{add}\)指本层AIM和后一层SIM+FU输出的特征的相加结果。

consistency-enhanced loss

CEL loss 用于解决类别不均衡问题

预测输出p,如公式4

Snipaste_2020-11-08_10-59-45

Snipaste_2020-11-08_11-00-08,p是01之间的概率,N是batch_size个数。

本文提出CEL损失,如公式6,使用预测和gt的交集除以他们的并集。当预测结果和gt相差最大时,loss=1;相差很小时,loss也小。

Snipaste_2020-11-08_11-01-43

导数公式对比如下,

Snipaste_2020-11-08_11-02-48

CEL的偏导公式里除了1-2g,其他的项是image-specific,考虑了全局约束。而BCEL的项是position-specific,只在乎独立的像素点的预测。

总的loss如下,简便起见权重=1

Snipaste_2020-11-08_11-06-04

posted @ 2020-11-09 10:55  clownn  阅读(838)  评论(0编辑  收藏  举报