SE-SSD
PDF: 《SE-SSD: Self-Ensembling Single-Stage Object Detector From Point Cloud》
Code: https://github.com/Vegeta2020/SE-SSD
一、大体内容
由于距离的远近和遮挡问题,同一个Hard样本的点云和特征差异可能较大,而soft样本信息更加丰富,因此借助soft样本来进行优化有助于揭示同类样本之间的差异(Soft样本为Teacher模型预测的目标,Hard样本为标注的目标),因而本文提出了一个准确且高效的单阶段目标检测器SE-SSD。SE-SSD包含一对Teacher和Student SSD模型,设计了一个有效的IOU-based匹配策略来过滤Teacher预测的soft目标,并使用一致性损失(Consistency Loss)让student和teacher预测趋于一致,另外为了最大限度地运用teacher的蒸馏知识,设计了一种形状感知数据增强方案(Shape-Aware Data Augmentation)来训练student模型,以推断目标完整的形状。最后,为了更好地利用hard目标,还设计了一个方向感知距离Iou损失(Orientation-Aware Distance-IoU Loss)来约束student预测的box中心和方向,其在KITTI数据集上排名第一(截至20210617)。
SE-SSD的网络框架如下图所示,Teacher SSD和Student SSD两个模型结构相同,先使用预训练好的SSD对这两个模型初始化,然后再同时训练这两个模型。数据也相应的分为两个路径,第一条(蓝色)表示Teacher SSD从输入点云数据中生成相对精确的预测,然后对其进行全局转换,其预测结果作为Soft目标来监督Student SSD学习。第二条(绿色)主要是针对Student SSD,数据经过同样的全局转换以达到扰动的效果,经过形状感知数据增强方案后输入到Student SSD模型进行训练,一方面利用一致性损失来对齐soft目标,另一方面借助方向感知距离损失来对齐hard目标,来不断优化Student SSD模型,并借助Student SSD参数通过标准指数移动平均(EMA)更新teacher SSD。
二、贡献点
- 提出单阶段目标检测器SE-SSD,依据Teacher SSD生成soft目标,并借助一致性损失(Consistency Loss)让student SSD预测和Soft目标对齐。
- 用方向感知距离损失(Orientation-Aware Distance-IoU Loss)来监督Student SSD,使其在边界框中心以及方向上都受到约束。
- 提出形状感知数据增强方案(Shape-Aware Data Augmentation),作为一个即插即用的模块可以产生形状感知的GT目标
三、细节
3.1 IOU-based匹配策略
其目标是快速配对teacher和student的非轴对齐边界框。其大体可以分为以下步骤:
- 为了从teacher中获得高质量的soft目标,以置信度\(\tau_c\)过滤掉teacher和student预测的边界框,去掉得分小于\(\tau_c\)的边界框,以减少一致性损失的计算量;
- 计算剩下teacher和student边界框的IoU,过滤置信度低于\(\tau_I\)的框,避免student受不相关的soft目标错误的引导,因此只留下了高覆盖的student-teacher配对框;
- 对于每一个student 边界框,将它与具有最大IOU的teacher边界盒配对,以增加soft目标的置信度。
3.2 一致性损失(Consistency Loss)
一致性损失采用的\(Smooth-L_1\)损失函数,可以均匀地处理预测中的所有维度,其目的是使得student预测尽可能和soft目标对齐。包含边界框损失和分类损失两部分。
-
边界框损失
-
分类损失
3.3 方向感知距离Iou损失(Orientation-Aware Distance-IoU Loss, ODIoU Loss)
其目标是使得student SSD更多地关注边界框中心及方向的对准,让预测的边界框更加精确。
ODIoU Loss损失由式4表示:
其中\((1 - |cos(\delta r)|)\)的作用是使得预测框的方向尽可能地接近真实标注方向。如下图所示其梯度幅度与角度差呈正相关,从而促进了不同训练阶段的快速收敛和平滑微调。
3.4 形状感知数据增强方案(Shape-Aware Data Augmentation)
Hard目标的点云由于现实的遮挡、距离变化和物体形状的多样性等,往往差异很大,设计形状感知数据增强方案的目的是模拟在数据增强时,点云如何受到这些因素的影响。大体可以分为以下几块内容:
- 随机删除:在随机选择的金字塔中随机删掉所有点(如上图所示蓝色点,左上),模拟对象被部分被遮挡的情况,以帮助网络从剩余的点推断出完整的形状。
- 随机交换: 在当前场景中随机选择另一个输入目标,并将点集(绿色)交换到另一个输入目标中的点集(黄色),从而利用目标间的表面相似性来增加目标样本的多样性。
- 最远点采样(FPS):使用FPS在随机选择的金字塔中随机采集子样本点,模拟由于LIDAR距离变化引起的点的稀疏变化,见图5中的稀疏点(红色)。
除此之外,在形状感知数据增强前,还在输入点云上执行全局转换,包括随机平移、翻转和缩放等操作。
四、效果
-
KITTI数据集上效果展示
-
不同模型效果对比
-
消融实验