[Paper Reading] BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

BEVDet
时间：21/12
机构：PhiGo(鉴智机器人)

TL;DR

一种BEV空间做detection的方法，构建了新颖的数据增强方法以及更新了nms策略，精度与FCOS3D comparable，计算量Flops仅为其11%。

Method

模型架构图整体来看也LSS等差别不大，关键创新点在于定制化的数据增强以及 Scale-NMS。

定制化的数据增强

传统的数据增强方法通过在2D图像空间进行，为了保持结果与GT的一致性，通过在ViewTransform过程需要相应的逆变换，这使得数据增强的好处不能作用于后续Layer，而BEV空间下的instance数少于Image空间(比如，nuScences 6个图像空间才对应一个BEV空间)，本身就更容易过拟合。BEVDet直接在ViewTransform之后的特征上进行数据增强，相应处理相应的3D targets使两者保持一致性。

Scale-NMS

传统图像上NMS不适合BEV系列方法，原因是像交通椎、行人之类的目标尺寸已经小到低于BEV网格最小尺度(比如CenterPoint的是0.8m)，所以计算出的3d iou数值会不太合理。作者针对每个类别设计设置一个scale超参数进行放大，如上图所示。

Q: BEV Data augmentation是如何做的？
参考https://github.com/HuangJunJie2017/BEVDet中的loading.py(生成bev feature上数据增强矩阵)以及bevdet.py(在feat上执行transform)

Experiment

表4可看出BDA(BEV data augmentation对于精度有明显提升)

表5可看出使用scale-NMS之后交通锥精度提升比较明显。

总结与发散

论文称作BEVDet，实际上主要是在BEV框架上增加了一些trick(BDA与scaleNMS)。
https://github.com/HuangJunJie2017/BEVDet

资料查询

折叠Title

FromChatGPT(提示词：XXX)

posted @ 2024-05-14 14:12 fariver 阅读(20) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

fariver