[Paper Reading] BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View
BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View
BEVDet
时间:21/12
机构:PhiGo(鉴智机器人)
TL;DR
一种BEV空间做detection的方法,构建了新颖的数据增强方法以及更新了nms策略,精度与FCOS3D comparable,计算量Flops仅为其11%。
Method
模型架构图整体来看也LSS等差别不大,关键创新点在于 定制化的数据增强 以及 Scale-NMS。
定制化的数据增强
传统的数据增强方法通过在2D图像空间进行,为了保持结果与GT的一致性,通过在ViewTransform过程需要相应的逆变换,这使得数据增强的好处不能作用于后续Layer,而BEV空间下的instance数少于Image空间(比如,nuScences 6个图像空间才对应一个BEV空间),本身就更容易过拟合。BEVDet直接在ViewTransform之后的特征上进行数据增强,相应处理相应的3D targets使两者保持一致性。
Scale-NMS
传统图像上NMS不适合BEV系列方法,原因是像交通椎、行人之类的目标尺寸已经小到低于BEV网格最小尺度(比如CenterPoint的是0.8m),所以计算出的3d iou数值会不太合理。作者针对每个类别设计设置一个scale超参数进行放大,如上图所示。
Q: BEV Data augmentation是如何做的?
参考https://github.com/HuangJunJie2017/BEVDet中的loading.py(生成bev feature上数据增强矩阵)以及bevdet.py(在feat上执行transform)
Experiment
表4可看出BDA(BEV data augmentation对于精度有明显提升)
表5可看出使用scale-NMS之后交通锥精度提升比较明显。
总结与发散
论文称作BEVDet,实际上主要是在BEV框架上增加了一些trick(BDA与scaleNMS)。
https://github.com/HuangJunJie2017/BEVDet
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律