Non-local Network：人类早期在CV驯服Transformer尝试 | CVPR 2018

Non-local操作是早期self-attention在视觉任务上的尝试，核心在于依照相似度加权其它特征对当前特征进行增强，实现方式十分简洁，为后续的很多相关研究提供了参考

来源：晓飞的算法工程笔记公众号

论文: Non-local Neural Networks

论文地址：https://arxiv.org/abs/1711.07971
论文代码：https://github.com/facebookresearch/video-nonlocal-net

Introduction

卷积操作通常在局部区域进行特征提取，想要获取范围更广的特征信息需要重复进行卷积操作来获得，这样不仅耗时还增加了训练难度。为此，论文提出高效的non-local操作，将特征图上的特征点表示为所有特征点的加权和，用于捕捉覆盖范围更广的特征信息。non-local操作也可以用于含时序的任务中，如图1的视频分类任务，可综合几帧的特征来增强当前帧的特征。
non-local操作主要有以下优点：

相对于叠加卷积的操作，non-local可通过特征点间的交互直接捕捉更广的特征信息。
从实验结果来看，简单地嵌入几层non-local操作就能高效地提升网络性能。
non-local操作支持可变输入，可很好地与其它网络算子配合。

Non-local Neural Networks

Formulation

首先定义通用的non-local操作：

\(i\)为特征图上将要计算特征值的位置坐标，\(j\)为特征图上的所有位置坐标，\(x\)为对应位置上的输入特征，\(y\)为增强后的输出，\(f\)计算\(i\)和\(j\)之间的相似性，\(g\)则用于对\(j\)的特征进行转化，\(\mathcal{C}\)用于对输出进行归一化。
简而言之，non-local的核心就是计算当前位置的特征与特征图所有特征间的相似性，然后根据相似性对所有特征加权输出。相对于卷积和全连接等参数固定的操作，non-local更加灵活。