AABO：自适应Anchor设置优化，性能榨取的最后一步 | ECCV 2020 Spotlight

论文提出超参数优化方法AABO，该方法核心基于贝叶斯优化和Sub-Sample方法，能够自适应的搜索最优的anchor设置。从实验结果来看，AABO能够仅通过anchor设置优化，为SOTA目标检测方法带来1.4%～2.4%的性能提升

来源：晓飞的算法工程笔记公众号

论文: AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling

论文地址：https://arxiv.org/abs/2007.09336

Introduction

目前，主流的目标检测算法使用多种形状的anchor box作为初始预测，然后对anchor box进行回归调整，anchor box的配置是检测算法中十分重要的超参数。一般而言，anchor box的配置都是简单地通过人为指定，比如Faster R-CNN经典的的9种形状，也可以像YOLO一样通过k-means对数据集进行分析，得出特定的配置。
为了人工设置超参数的环节，近年来很多关于超参数优化问题(HPO, hyper-parameter optimization)的研究，最有效的方法为贝叶斯优化(BO)和bandit-based策略。在分析了当前方法的优劣后，论文提出一种自适应的anchor box优化方法AABO，该方法基于贝叶斯优化和Sub-Sample方法，能够自动且高效地搜索到最优的anchor设置，榨干主流目标检测算法的潜力。

Relative Method

这里先对论文经常提及的3种超参数搜索方法进行简单的介绍，方便下面的理解。

Bayesian optimization

超参数的验证通常需要进行模型训练，会耗费大量的时间，所以贝叶斯优化的核心是使用替代模型(prior function)来代理目标模型，替代模型一般为概率分布模型。在得到替代模型后，使用采集函数(acquisition function)从候选集中选择一组合适的超参数进行测试，采集函数需要能够很好地平衡exploitation和exploration，测试则是使用目标模型进行正常的训练和验证，最后将当前结果加入观测数据中，用于训练替代模型，反复进行上述的操作。

贝叶斯优化的完整流程如上面所示，在每轮的迭代中基于替代模型和采集函数获取一组超参数，然后使用目标模型进行验证，最后将验证结果加入观测数据集并更新替代模型。

Hyperband

Bandit-based方法在限定资源的情况以高效的策略寻找最优超参数，资源可为时间、迭代次数等，而Hyperband是经典的bandit-based方法。Hyperband在Successive Halving算法的基础上进行了扩展，每次选取一批超参数进行多轮迭代，每轮迭代将资源\(B\)均匀地分配给待验证的超参数组合，每轮结束时保留\(1/\eta\)超参数组合进行下一轮。

Hyperband的完整流程如上面所示，\(R\)为单超参数分组可分配的最大资源，包含两个循环，外循环负责控制每次验证的初始可分配的资源数\(r\)以及验证的分组数\(n\)，逐步增加\(r\)和减少\(n\)，分组由随机采样所得。内循环则进行Successive Halving算法，共进行\(s\)次迭代，逐步增加每组的可分配资源，并且每次保留最优的\(1/\eta\)分组。

BOHB

实际上，上面的两种经典超参数方法都有其各自的优缺点，贝叶斯优化虽然搜索高效，但是容易陷入局部最优解，而Hyperband虽然搜索比较全面，但效率不够高。所以，BOHB结合了贝叶斯优化和Hyperband进行超参数优化。

BOHO的完整流程如上所示，可简单地认为将Hyperband的随机采样替换为贝叶斯优化进行采样，然后将Hyperband的超参数组合及其对应的输出加入到观测数据中，用于更新替代模型。需要注意的是，BOHO的替代模型是一个多维核密度估计(KDE)模型，类似于TPE(Tree Parzen Estimator)。如论文提到的，BOHO有一个比较严重的问题，对于难学习的样本，一般需要较长的训练周期，而由于BOHO使用HyperBand进行快速验证，所以不一定能完整地测出超参数的真实准确率，导致最终的结果有偏差。

Preliminary Analysis

Default Anchors Are Not Optimal

随机采样100组不同的anchor设置，每组包含3种尺寸和3种长宽比，然后与Faster R-CNN的默认anchor配置进行性能对比。结果如上图所示，红线为默认设置的性能，可以看到，默认设置并不是最优的。

Anchors Influence More Than RPN Structure

使用BOHB同时搜索RPN head结构以及anchor设置，RPN head的搜索空间如上图所示。

结果如上表所示，可以看到anchor设置搜索带来的性能提升在一定程度上要高于RPN head结构搜索。

Search Space Optimization for Anchors

论文通过分析目标bbox的分布特性，设计了紧密的搜索空间，主要基于以下两个特性。

Upper and Lower Limits of the Anchors

论文对COCO数据集目标的尺寸和长宽比进行统计，并且得到了ratio的上界和下界：

统计结果如上图所示，其中蓝点为每个目标，黄线分别为上界和下界，中间的黑色长方形为BOHB搜索实验的搜索空间。可以看到，有一部分的搜索空间在上界和下界之外，是无效的搜索，所以约束搜索空间在上界和下界之间是有必要的。另外，图中有5个红色的框，是论文为RPN的每层设定的对应搜索空间，下面会提到。

Adaptive Feature-Map-Wised Search Space

论文对FPN每层的输出进行了统计，结果如上图所示。可以看到，不同层包含不同数量和不同形状的输出，随着层数的增加，anchor的数量越少，长宽比范围也越小。

基于上面的分析，论文设计了自适应FPN的搜索空间，图4中的5个红框与上下界之间的区域即为FPN每层对应的搜索空间。具体搜索如上图所示，每层都有独立的搜索空间，层数越大，anchor的数量、尺寸范围和长宽比范围越小。实际上，与图4的黑矩形框搜索空间对比，这种自适应FPN搜索空间更大，而且每层较小的搜索空间有助于HPO算法的更集中地进行搜索。

Bayesian Anchor Optimization via Sub-sampling

论文提出的搜索方法如图7所示，包含BO和子采样方法，分别用于选择潜在的设置以及为不同的设置分配不同的计算资源。整体思路和BOHB类似，将其中的Hyperband替换成了Sub-Sample方法。

Bayesian Optimization

论文在实现时，BO模块与与BOHB类似，使用TPE(Tree Parzen Estimator)作为核密度函数进行建模，TPE包含两个概率密度函数：\(l(x)=p(y<\alpha | x, D)\)和\(g(x)=p(y>\alpha | x, D)\)，分别表示结果好的概率和结果差的概率，其中\(D=\{(x_0, y_0), \cdots, (x_n, y_n)\}\)为当前的观测数据，\(\alpha=min\{y_0, \cdots, y_n\}\)为当前观测数据的最优结果，采样时取\(l(x)/g(x)\)最大的超参数组合。需要注意的是，由于Hyperband只保证最终输出的结果的准确性，其它结果由于在中途就停止了，资源不足，输出不一定准确，直接用这些结果来对\(g(x)\)进行训练会造成很大的误差，所以需要一个更好的方法来解决这个问题。

Sub-Sample Method

Sub-Sample也是bandit-based方法，在资源有限的情况，尽可能测试出优质的候选超参数组合。定义\(\mathcal{I}=\{1,2,\cdots, K\}\)为候选超参数组合，Sub-Sample方法基于观测数据\(Y^{(k)}_1\)进行选择, \(Y^{(k)}_1,Y^{(k)}_2,\cdots,1\le k\le K\)为当前观测点相对于上一个观测点的收益。

Sub-Sample方法如上所示，首先对所有超参数组合进行最小资源\(b\)的测试，得到一批观测数据，然后每轮选取已使用资源最多超参数组合作为leader，若其它组合优于leader，则赋予其资源\(b\)，否则赋予leader资源\(b\)，判断当前组合\(k^{'}\)是否优于leader组合\(k\)有以下两个规则：