SE-SSD

PDF: 《SE-SSD: Self-Ensembling Single-Stage Object Detector From Point Cloud》
Code: https://github.com/Vegeta2020/SE-SSD

一、大体内容

由于距离的远近和遮挡问题，同一个Hard样本的点云和特征差异可能较大，而soft样本信息更加丰富，因此借助soft样本来进行优化有助于揭示同类样本之间的差异（Soft样本为Teacher模型预测的目标，Hard样本为标注的目标），因而本文提出了一个准确且高效的单阶段目标检测器SE-SSD。SE-SSD包含一对Teacher和Student SSD模型，设计了一个有效的IOU-based匹配策略来过滤Teacher预测的soft目标，并使用一致性损失(Consistency Loss)让student和teacher预测趋于一致，另外为了最大限度地运用teacher的蒸馏知识，设计了一种形状感知数据增强方案(Shape-Aware Data Augmentation)来训练student模型，以推断目标完整的形状。最后，为了更好地利用hard目标，还设计了一个方向感知距离Iou损失（Orientation-Aware Distance-IoU Loss）来约束student预测的box中心和方向，其在KITTI数据集上排名第一（截至20210617）。

SE-SSD的网络框架如下图所示，Teacher SSD和Student SSD两个模型结构相同，先使用预训练好的SSD对这两个模型初始化，然后再同时训练这两个模型。数据也相应的分为两个路径，第一条（蓝色）表示Teacher SSD从输入点云数据中生成相对精确的预测，然后对其进行全局转换，其预测结果作为Soft目标来监督Student SSD学习。第二条（绿色）主要是针对Student SSD，数据经过同样的全局转换以达到扰动的效果，经过形状感知数据增强方案后输入到Student SSD模型进行训练，一方面利用一致性损失来对齐soft目标，另一方面借助方向感知距离损失来对齐hard目标，来不断优化Student SSD模型，并借助Student SSD参数通过标准指数移动平均（EMA）更新teacher SSD。

二、贡献点

提出单阶段目标检测器SE-SSD，依据Teacher SSD生成soft目标，并借助一致性损失(Consistency Loss)让student SSD预测和Soft目标对齐。
用方向感知距离损失（Orientation-Aware Distance-IoU Loss）来监督Student SSD，使其在边界框中心以及方向上都受到约束。
提出形状感知数据增强方案(Shape-Aware Data Augmentation)，作为一个即插即用的模块可以产生形状感知的GT目标

三、细节

3.1 IOU-based匹配策略

其目标是快速配对teacher和student的非轴对齐边界框。其大体可以分为以下步骤：

为了从teacher中获得高质量的soft目标，以置信度\(\tau_c\)过滤掉teacher和student预测的边界框，去掉得分小于\(\tau_c\)的边界框，以减少一致性损失的计算量；
计算剩下teacher和student边界框的IoU，过滤置信度低于\(\tau_I\)的框，避免student受不相关的soft目标错误的引导，因此只留下了高覆盖的student-teacher配对框；
对于每一个student 边界框，将它与具有最大IOU的teacher边界盒配对，以增加soft目标的置信度。

3.2 一致性损失(Consistency Loss)

一致性损失采用的\(Smooth-L_1\)损失函数，可以均匀地处理预测中的所有维度，其目的是使得student预测尽可能和soft目标对齐。包含边界框损失和分类损失两部分。

边界框损失
分类损失

3.3 方向感知距离Iou损失（Orientation-Aware Distance-IoU Loss， ODIoU Loss）

其目标是使得student SSD更多地关注边界框中心及方向的对准，让预测的边界框更加精确。
ODIoU Loss损失由式4表示：

其中\((1 - |cos(\delta r)|)\)的作用是使得预测框的方向尽可能地接近真实标注方向。如下图所示其梯度幅度与角度差呈正相关，从而促进了不同训练阶段的快速收敛和平滑微调。

3.4 形状感知数据增强方案(Shape-Aware Data Augmentation)

Hard目标的点云由于现实的遮挡、距离变化和物体形状的多样性等，往往差异很大，设计形状感知数据增强方案的目的是模拟在数据增强时，点云如何受到这些因素的影响。大体可以分为以下几块内容：

随机删除：在随机选择的金字塔中随机删掉所有点（如上图所示蓝色点，左上），模拟对象被部分被遮挡的情况，以帮助网络从剩余的点推断出完整的形状。
随机交换: 在当前场景中随机选择另一个输入目标，并将点集（绿色）交换到另一个输入目标中的点集（黄色），从而利用目标间的表面相似性来增加目标样本的多样性。
最远点采样（FPS）：使用FPS在随机选择的金字塔中随机采集子样本点，模拟由于LIDAR距离变化引起的点的稀疏变化，见图5中的稀疏点（红色）。

除此之外，在形状感知数据增强前，还在输入点云上执行全局转换，包括随机平移、翻转和缩放等操作。

四、效果

KITTI数据集上效果展示
不同模型效果对比
消融实验

posted @ 2024-04-15 21:43 半夜打老虎阅读(47) 评论(0) 编辑收藏举报

刷新页面返回顶部

半夜打老虎