[Paper Reading] FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

link
时间：23.11
机构：houmo.ai 后摩智能

TL;DR

当时比较流行的OCC方案内存与计算复杂度较高，本文提出一种称为FlashOcc的方法，仅使用2D卷积将特征由二维空间lift到3D空间。

Method

Image Encoder, View Transform, BEV特征构建(LSS) 等处理都比较常规，时序特征融合是在BEV特征下利用车身位姿来对齐特征。唯一不同的是Occupancy Head预测不使用3D Conv比较轻量级，具体细节如下。

Occupancy Head

使用Channel-to-Height的方案预测Occupancy，具体通过几层Conv处理BEV特征为(B×C×W×H)，经过Reshape将该特征变为Occupancy特征(\(B×C^{*}×Z×W×H\))，其中\(C = C^{*}×Z\)，也就是将BEV每个位置特征的channel维度split成包含高度的特征向量。

Experiment

内存相对于其它occ方法从398MB -> 124MB，推理速度从7.5ms -> 3.1ms。

总结与发散

模型架构比较容易理解，整体是在走降低内存与计算开销的卖点。
channel-to-height的思想比较有意思，其实重要的不是中间特征的shape，而是你使用什么样GT来监督，把occ的GT reshape成2D来监督2D feature其实也是同样效果。

资料查询

折叠Title

FromChatGPT(提示词：XXX)

posted @ 2024-05-29 20:52 fariver 阅读(253) 评论(0) 收藏举报

刷新页面返回顶部

fariver