Non-local Neural Networks

Non-local Neural Networks

2020-03-05 20:24:39

Paper: CVPR_2018

Code: https://github.com/facebookresearch/video-nonlocal-net (Caffe2 version)

https://github.com/AlexHex7/Non-local_pytorch (PyTorch version)

1. Background and Motivation:

为了捕获长期的依赖关系，常规操作是进行卷积操作的堆叠。卷积或者循环操作只能是对空间或者时间上进行 local 的操作，但是这种 local 操作有如下的局限性：1). 计算并不算高效；2). 需要仔细处理优化问题；3). 这使得 multi-hop dependency modeling difficult。所以，本文提出了一种 non-local 的操作作为一种有效的，简单的，并且 generic 的成分来捕获神经网络中长期依赖的问题。直观的来说，non-local operation 通过如下的方式计算一个位置的响应：as a weighted sum of the features at all positions in the input feature maps，如图 1 所示。位置的集合可以是 space，time 或者 spacetime，表明 non-local operation 适应于 image，sequence，以及 video problems。利用 non-local operations 可以有如下的几点优势：

1). 相比较于常规 CNN/RNN 的渐进式的行为，non-local operation 直接通过计算任意两个位置之间的交互就可以捕获长期的依赖，而不用管他们的位置距离。

2). 如实验中所证明的，non-local operation 执行效率是较高的，即使只用几层，也可以得到最好的效果；

3). non-local operation 保持了可变大小的输入，并且可以很简单的和其他操作进行结合，例如本文用到的卷积操作。

本文在视频分类任务上验证了 non-local operation 的有效性。此外，还在 object detection/segmentation 和 pose estimation 任务上验证了本文方法的 generality。

2. Non-local Neural Networks:

我们首先给出了 non-local operation 的定义，然后提供了几种特定的实现版本。

2.1. Formulation：

服从前人的工作，本文定义了如下的神经网络中的 generic non-local operation 如下：

此处，i 是要计算响应的位置索引，j 是枚举所有可能的位置索引。x 是输入信号，可以是 image，sequence，video，或者是他们的 feature；y 是和 x 同样大小的输出信号。 f 是用于计算 i 和 j 之间的关系。一元函数 g 计算了输入信号在位置 j 的表示。该影响通过一个常数进行归一化 C(x)。

在公式 1 中的 non-local behavior 是因为所有位置都在这个操作中考虑到了。作为对比，常规的卷积操作仅仅对 local neighborhood 进行加权求和，循环操作在时刻 t 仅仅考虑到当前时刻和前一个时刻。

non-local operation 跟常规的 fc layer 还是不一样的。公式 1 在不同的位置计算响应，而 fc 利用了学习到的权重。换句话说，xj 和 xi 之间的关系，并非是输入数据输入到 fc 中。此外，公式 1 也支持 variable sizes，并且保持了对应的大小的输出。而 fc 要求是固定大小的输入和输出，并且丢失了位置之间的对应关系。

2.2. Instantiations:

接下来，文章介绍了几种 f 和 g 的版本，作者的实验表明，non-local 模型对这些东西并不敏感，表明 generic non-local behavior 是得到提升的主要原因。为了简单起见，本文仅考虑 g 是线性变换：$g(x_j) = W_g X_j$，其中，$W_g$ 是可学习的权重矩阵。然后主要讨论了 pairwise function f 的几种选择：