CVPR2022 | 重新审视池化：你的感受野不是最理想的

前言本文提出了一种简单而有效的动态优化池操作（ Dynamically Optimized Pooling operation），称为DynOPool，它通过学习每一层感受野的最佳大小和形状来优化特征映射的端到端比例因子。
深度神经网络中任何类型的调整大小模块都可以用DynOPool操作以最小的成本替换。此外，DynOPool通过引入一个限制计算成本的附加损失项来控制模型的复杂性。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

论文：https://arxiv.org/abs/2205.15254

代码：未发布

背景

尽管深度神经网络在计算机视觉、自然语言处理、机器人、生物信息学等各种应用中取得了前所未有的成功，但最优网络结构的设计仍然是一个具有挑战性的问题。而感受野的大小和形状决定了网络如何聚集本地信息，并对模型的整体性能产生显著影响。神经网络中的许多组成部分，例如用于卷积和池化运算的内核大小和步长，都会影响感受野的配置。然而，它们仍然依赖于超参数，现有模型的感受野会导致形状和大小不理想。

本文通过介绍固定大小和形状的传统感受野是次优的问题，讨论了DynOPool如何通过CIFAR-100上的VGG-16玩具实验解决这个问题。

固定大小和形状的传统感受野存在的问题：

1.不对称分布的信息

最佳感受野形状会根据数据集中固有的空间信息不对称性而改变。而大多数情况下固有的不对称性是不可测量的。此外，通常用于预处理的输入大小调整有时也会导致信息不对称。在人工设计的网络中，图像的长宽比经常被调整以满足模型的输入规格。然而，这种网络中的感受野不是用来处理操作的。

为了验证所提出的方法，作者在CIFAR-stretch-V上进行实验，如图1（a）所示，相较于人工设计模型，形状通过DynOPool动态优化的特征映射通过在水平方向上提取更具有价值的信息提高性能。

图1 用来自CIFAR-100的三个不同的合成数据集进行玩具实验:

(a)随机裁剪垂直拉伸的图像 (b)在4×4网格中平铺缩小的图像 (c)放大缩小的图像。

2.密集分布或稀疏分布信息

局部性是设计最优模型的组成部分。CNN通过级联的方式聚合局部信息来学习图像的复杂表示。而局部信息的重要性很大程度上取决于每个图像的属性。例如，当一个图像被模糊化时，大多数有意义的微观模式，如物体的纹理，都会被抹去。在这种情况下，最好在早期层中扩展感受野，集中于全局信息。另一方面，如果一幅图像在局部细节中包含大量类特定的信息，例如纹理，则识别局部信息将会更加重要。

为了验证假设，作者构建了CIFAR-100数据集的两个变体，CIFAR-tile和CIFAR-large，如图1(b)和(c)所示。作者模型在很大程度上优于人工设计的模型。