[Paper Reading] OFT Orthographic Feature Transform for Monocular 3D Object Detection

OFT Orthographic Feature Transform for Monocular 3D Object Detection

OFT Orthographic Feature Transform for Monocular 3D Object Detection
时间：18.11
机构：University of Cambridge

TL;DR

当时纯视觉自动驾驶方案效果上仅达到Lidar方案有10%的水平，本文claim部分差距源于perspective view看到的目标scale与外观会随着深度发生变化，本文提出正交特征变换层(orthographic feature transform)解决该问题。

Method

整体网络架构参见上图，主要创新的模块是OFT层(orthographic feature transform)。如下图，OFT主要作用是建立一个3D voxel feature map(例如，80m×4m×80m空间下每0.5划分一个栅格)，栅格中每个位置的feature利用如下公式投影到图像特征空间ROI，使用average pooling(实际上用积分图实现)计算该栅格对应的特征。

Q: 是否有类似于LSS的splat步骤？ yes
获取3D voxel feature map后，为了降低计算量，利用自动驾驶更关注目标的BEV平面位置信息而非高度的特点，使用一个垂直方向的pooling将3D特征splat成为2D特征图，称为orthographic feature map。如下公式(1)所示，\(W(y)\)为pooling过程每个voxel对应的权重，为可学习参数。

Q：box如何回归？是否回归角度？
confidence score S, a position offset ∆pos, a dimension offset ∆dim(w, h, l) and an angle vector ∆ang(因为在BEV平面，所以预测仅y轴对应角度)
Q：是否有栅格特征是否有多目特征融合？否
根据作者在实验中描述，应该都是Mono view直出，3D voxel空间未进行多目特征融合。

Experiment

单目实验结果里面提升比较明显，但也双目方法仍有差距。

总结与发散

在bird view而非perspective view上提取特征预测结果听起来确实很合理
orthographic feature map后续慢慢会演变为BEV featmap，好处：

feature map的spatial位置与最终要输出结果的位置更加对应。
提供了一个统一的特征空间供后续多目特征融合。

fariver