[Paper Reading] FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

link
时间:23.11
机构:houmo.ai 后摩智能

TL;DR

当时比较流行的OCC方案内存与计算复杂度较高,本文提出一种称为FlashOcc的方法,仅使用2D卷积将特征由二维空间lift到3D空间。

Method


Image Encoder, View Transform, BEV特征构建(LSS) 等处理都比较常规,时序特征融合是在BEV特征下利用车身位姿来对齐特征。唯一不同的是Occupancy Head预测不使用3D Conv比较轻量级,具体细节如下。

Occupancy Head

使用Channel-to-Height的方案预测Occupancy,具体通过几层Conv处理BEV特征为(B×C×W×H),经过Reshape将该特征变为Occupancy特征(\(B×C^{*}×Z×W×H\)),其中\(C = C^{*}×Z\),也就是将BEV每个位置特征的channel维度split成包含高度的特征向量。

Experiment


内存相对于其它occ方法从398MB -> 124MB,推理速度从7.5ms -> 3.1ms。

总结与发散

模型架构比较容易理解,整体是在走降低内存与计算开销的卖点。
channel-to-height的思想比较有意思,其实重要的不是中间特征的shape,而是你使用什么样GT来监督,把occ的GT reshape成2D来监督2D feature其实也是同样效果。

相关链接

https://github.com/Yzichen/FlashOCC/tree/master

资料查询

折叠Title FromChatGPT(提示词:XXX)
posted @ 2024-05-29 20:52  fariver  阅读(24)  评论(0编辑  收藏  举报