论文阅读笔记(七十一)【CVPR2018】:Harmonious Attention Network for Person Re-Identification

Introduction

本文是一个轻量级的reid网络框架,贡献具体如下:

1) 作者设计了多粒度注意力选择(Multi-granularity attention selection)和特征表示(feature representation)的联合学习框架;

2) 提出了一个Harmouious Attention CNN (HA-CNN)来学习hard region-level和soft pixel-level的注意力;

3) 引入一个交叉注意力学习策略(cross-attention interaction learning)来进一步增强注意力选择和特征表示的兼容性。

 

Harmonious Attention Network

HA-CNN包含了全局分支(上方)和局部分支(下方),网络的CNN模块主要由Inception-A/B构成,结构可以大致参考Inception-v4,也可以替换为其他主干网络的模块:

补充:复现源码中的Inception A/B 是这么设计的:

其中HA模块结构如下:灰色为卷积层,褐色为全局平均池化,蓝色为全连接层,每一层后均有ReLU+BN. 

这部分中的通道注意力和空间注意力比较直观,下面介绍一下hard attention模块:

首先定义一个图像变换矩阵:,其中sh和sw表示scale变化,为预设值,tx和ty表示空间位置,为待学习值。通过FC层学习到2T个值(T为局部区域数量),再通过tanh激活函数将数值转为[-1, 1]之间(作者的解释是:因为存在边界框不齐的现象,有些区域可能会划分在边界框外)。将这个参数传到网络前端,为局部分支提供移动的方向,由此生成硬分割的局部注意力区域:

此外,作者还提出Cross-Attention Interaction Learning策略,将全局特征与局部特征相加融合,通过这种交互来丰富分支之间的联合学习。由于全局分支的学习能力和局部进行了共享,局部分支的网络层数可以得以降低。

 

Experiments

 

posted @ 2021-05-21 16:16  橙同学的学习笔记  阅读(476)  评论(0编辑  收藏  举报