[Paper Reading] BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

BEVDet
时间:21/12
机构:PhiGo(鉴智机器人)

TL;DR

一种BEV空间做detection的方法,构建了新颖的数据增强方法以及更新了nms策略,精度与FCOS3D comparable,计算量Flops仅为其11%。

Method


模型架构图整体来看也LSS等差别不大,关键创新点在于 定制化的数据增强 以及 Scale-NMS。

定制化的数据增强

传统的数据增强方法通过在2D图像空间进行,为了保持结果与GT的一致性,通过在ViewTransform过程需要相应的逆变换,这使得数据增强的好处不能作用于后续Layer,而BEV空间下的instance数少于Image空间(比如,nuScences 6个图像空间才对应一个BEV空间),本身就更容易过拟合。BEVDet直接在ViewTransform之后的特征上进行数据增强,相应处理相应的3D targets使两者保持一致性。

Scale-NMS


传统图像上NMS不适合BEV系列方法,原因是像交通椎、行人之类的目标尺寸已经小到低于BEV网格最小尺度(比如CenterPoint的是0.8m),所以计算出的3d iou数值会不太合理。作者针对每个类别设计设置一个scale超参数进行放大,如上图所示。

Q: BEV Data augmentation是如何做的?
参考https://github.com/HuangJunJie2017/BEVDet中的loading.py(生成bev feature上数据增强矩阵)以及bevdet.py(在feat上执行transform)

Experiment

表4可看出BDA(BEV data augmentation对于精度有明显提升)

表5可看出使用scale-NMS之后交通锥精度提升比较明显。

总结与发散

论文称作BEVDet,实际上主要是在BEV框架上增加了一些trick(BDA与scaleNMS)。
https://github.com/HuangJunJie2017/BEVDet

资料查询

折叠Title FromChatGPT(提示词:XXX)
posted @ 2024-05-14 14:12  fariver  阅读(20)  评论(0编辑  收藏  举报