3D Object Detection Essay Reading 2024.03.27

Point Transformer V3: Simpler, Faster, Stronger

  1. publish:CVPR2024
  2. paper:https://arxiv.org/abs/2312.10035
  3. code:https://github.com/Pointcept/PointTransformerV3
  4. commentary:
  1. idea:

​ 作者在3D large-scale表示学习中认识到模型性能更受规模scale的影响,而不是复杂设计。怎么理解这句话呢?相比较于复杂的网络设计,训练数据大小和模型参数量多少更容易对模型的性能产生影响。作者主要对backbone提出了三点改进,相较于PTv2大大减少了时间和显存的消耗,同时保持高效。

  • PTv3改变传统的K-Nearest Neighbors(KNN)查询定义的空间proximity(占用28% forward time ),相反,它探索点云序列化邻域。
  • PTv3用适合序列化点云的改进方法替换更复杂的注意力块交互机制attention patch interaction mechanisms,如shift-window(妨碍注意力操作的融合)和邻域机制(导致内存消耗大)。
  • PTv3消除了对相对位置编码的依赖(占用26% forward time ),支持更简单的预置稀疏卷积层prepositive sparse convolutional layer。
  1. 胡思乱想:

​ 也许可以试着用point transformer的思路改进一下pointpillar的PillarVFE层?

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

  1. publish:CVPR2024
  2. paper:https://arxiv.org/abs/2401.06197
  3. code:https://github.com/OpenGVLab/DCNv4
  4. commentray:
  1. idea:

​ 作者提出了可变形卷积DCNv4,解决了DCNv3的局限性,收敛速度和处理速度大幅提高,主要贡献有如下的两点:

  • 去除空间聚合中的softmax归一化以增强其动态特性和表达能力。
  • 优化内存访问,最大限度地减少冗余操作,以提高速度。
  1. 胡思乱想:

​ 空洞卷积可以在不增加参数的情况下,扩大感受野,但是在进行卷积操作时,每部分在特征图上的位置还是固定的,对于形变比较复杂的物体,效果不太好。但是DCN不仅可以扩大感受野,还有动态的感受野区域适应能力。所以用DCN替换SPPF中的空洞卷积,效果会不会更好?

SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection

  1. publish:CVPR2024
  2. paper:https://arxiv.org/abs/2403.05817
  3. code:https://github.com/zhanggang001/HEDNet(四月初才会开源代码)
  4. commentray:
  1. idea:

​ 作者发现,混合检测器(hybrid detectors)在较短的感知范围(75m以下)设计下测试,性能比较卓越。首先解释一下什么是混合检测器?hybrid detectors一般先用3D voxel编码将点云数据转换为伪图像的形式,再用2D CNN进一步提取特征。但是hybrid detectors产生的密集特征图难以扩展到远距离检测,因为密集特征图带来的计算成本呈二次方增长

​ 大多数混合检测器依赖于物体中心的特征进行预测,认为它们是整个物体的可靠表示。这些方法通常首先使用稀疏3D体素编码器高效地从非空体素中提取特征。随后,它们将这些稀疏特征转换为2D鸟瞰图(BEV)中的密集特征图,并利用卷积神经网络(CNNs)将特征扩散到物体中心,创建中心特征。然而,对于完全稀疏的检测器,在没有密集特征图的情况下,像车辆和卡车这样的大型物体的中心往往仍然是空的,导致中心特征缺失问题.

​ 作者提出了一种自适应特征扩散(adaptive feature diffusion)(AFD)策略,用于将特征传播到物体中心,作为SAFDNet解决中心特征缺失问题的核心组件。AFD选择性地将物体边界框内的特征扩展到相邻区域,并根据体素位置动态调整扩散范围。结果是,SAFDNet仍然可以利用稀疏特征上的高效计算。扩展后的特征被送入稀疏检测头进行预测。重要的是,SAFDNet保持了与现有混合检测器大部分超参数的兼容性,包括检测头的超参数,使其能够轻松适应新场景。

  1. 胡思乱想:

​ Rcooper因为是路边基础设施的合作,没有涉及车辆,基础设施的视野非常广阔(0.5-230m),非常符合SAFDNet提出的动机。此外,AFD模块可以直接用到pointpillar或者voxelnet的主干网络上,应该可以大大减小模型的计算成本和训练时间,同时性能还会有不错的提升(参考论文中的Appendix A数据)。

posted @ 2024-03-28 11:42  ZeroZeroSeven  阅读(89)  评论(0编辑  收藏  举报