Multi-scale Interactive Network for Salient Object Detection

Multi-scale Interactive Network for Salient Object Detection

CVPR20

摘要

本文提出MINet。在编码器中使用聚合交互模块AIM（aggregate interaction modules）来聚合相邻level的特征，由于仅使用小的up/down采样率，引入了很少噪声。在解码器中使用自交互模型SIM（self-interaction module）来利用multi-scale特征。

由于尺度变化造成类别不平衡，这削弱了交叉熵的效果，也造成预测的空间不一致性。因此本文提出consistency-enhanced loss强调前景背景的差异，保持类间一致性。

网络结构

图2左列是encoder-transport layer的连接方式，右列是transport layer-decoder的连接方式。

图中d是AIM聚合交互模块，h是SIM自交互模块

Snipaste_2020-11-08_09-39-56

图3是整体的结构，图示是采用VGG16做特征提取，本文移除vgg的最后一个max-pooling层来保持最后一个卷积层的细节信息。每个AIM利用相邻level的特征，为本分辨率（主分支）提供有效的补充。SIM从特定level提取multi-scale特征，FU由conv+bn+relu组成，FU融合SIM的特征，并输入到前一层里。

Snipaste_2020-11-08_10-05-14

输入320x320x3的图像，使用vgg16提取multi-level特征，使用AIM聚合特征，通过SIM和FU进一步处理，在 g 的监督下生成预测 p。

在AIM中主分支B1，SIM中主分支B0均由辅助分支补充信息，

AIMs

受[54]启发，提出AIM，

图4是聚合交互模块的细节图

Snipaste_2020-11-08_09-45-50

在不同level做融合会增强不同分辨率图的表达能力：在浅层融合可进一步增强细节信息并抑制噪声。在中间层融合可以同时考虑语义信息和细节信息，且网络会自动调整不同信息的比例。在顶层融合考虑相邻分辨率时会挖掘丰富的语义信息。

f 表示vgg提取的特征，在transformation步做conv+bn+relu。在interaction步通过pooling+近邻插值+conv将辅助分支（B0 B2）合并到B1支。通过conv把三支fuse，同时有一个残差连接。

如公式1，I是identity mapping，M是brach merging。第一行公式的+号表示残差连接

Snipaste_2020-11-08_10-45-25

SIMs

图5是自交互模块的细节图

Snipaste_2020-11-08_09-46-26

也遵循transformation-interaction-fusion策略，先使用升/降采样把特征图的分辨率统一。

公式2，+号表示SIM的残差连接

Snipaste_2020-11-08_10-54-20

公式3，

Snipaste_2020-11-08_10-55-06

\(f_{add}\)指本层AIM和后一层SIM+FU输出的特征的相加结果。

consistency-enhanced loss

CEL loss 用于解决类别不均衡问题

预测输出p，如公式4

Snipaste_2020-11-08_10-59-45

Snipaste_2020-11-08_11-00-08 ，p是01之间的概率，N是batch_size个数。

本文提出CEL损失，如公式6，使用预测和gt的交集除以他们的并集。当预测结果和gt相差最大时，loss=1；相差很小时，loss也小。

Snipaste_2020-11-08_11-01-43

导数公式对比如下，

Snipaste_2020-11-08_11-02-48

CEL的偏导公式里除了1-2g，其他的项是image-specific，考虑了全局约束。而BCEL的项是position-specific，只在乎独立的像素点的预测。

总的loss如下，简便起见权重=1

Snipaste_2020-11-08_11-06-04

posted @ 2020-11-09 10:55 clownn 阅读(850) 评论(0) 编辑收藏举报

刷新页面返回顶部