[Paper Reading] OFT Orthographic Feature Transform for Monocular 3D Object Detection

OFT Orthographic Feature Transform for Monocular 3D Object Detection

OFT Orthographic Feature Transform for Monocular 3D Object Detection
时间:18.11
机构:University of Cambridge

TL;DR

当时纯视觉自动驾驶方案效果上仅达到Lidar方案有10%的水平,本文claim部分差距源于perspective view看到的目标scale与外观会随着深度发生变化,本文提出正交特征变换层(orthographic feature transform)解决该问题。

Method


整体网络架构参见上图,主要创新的模块是OFT层(orthographic feature transform)。如下图,OFT主要作用是建立一个3D voxel feature map(例如,80m×4m×80m空间下每0.5划分一个栅格),栅格中每个位置的feature利用如下公式投影到图像特征空间ROI,使用average pooling(实际上用积分图实现)计算该栅格对应的特征。


Q: 是否有类似于LSS的splat步骤? yes
获取3D voxel feature map后,为了降低计算量,利用自动驾驶更关注目标的BEV平面位置信息而非高度的特点,使用一个垂直方向的pooling将3D特征splat成为2D特征图,称为orthographic feature map。如下公式(1)所示,\(W(y)\)为pooling过程每个voxel对应的权重,为可学习参数。


Q:box如何回归?是否回归角度?
confidence score S, a position offset ∆pos, a dimension offset ∆dim(w, h, l) and an angle vector ∆ang(因为在BEV平面,所以预测仅y轴对应角度)
Q:是否有栅格特征是否有多目特征融合?否
根据作者在实验中描述,应该都是Mono view直出,3D voxel空间未进行多目特征融合。

Experiment

单目实验结果里面提升比较明显,但也双目方法仍有差距。

总结与发散

在bird view而非perspective view上提取特征预测结果听起来确实很合理
orthographic feature map后续慢慢会演变为BEV featmap,好处:

  1. feature map的spatial位置与最终要输出结果的位置更加对应。
  2. 提供了一个统一的特征空间供后续多目特征融合。

相关链接

OFT Orthographic Feature Transform for Monocular 3D Object Detection

posted @ 2024-05-07 21:22  fariver  阅读(45)  评论(0编辑  收藏  举报