[Paper Reading] LSS: Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D
名称
Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D
时间:20.08
机构:NVIDIA
TL;DR
后融合方法将每一目感知结果通过相机参数转换到BEV空间再后融合,LSS开启前融合的先河,将特征通过先lift再splat到BEV空间,通过BEV空间特征直接预测结果,并且部分感知任务达到SOTA水平,比如segmentation。
Method
Lift
目标是将特征升维到3D空间,由于没有深度信息,针对每个pixel位置会预测一个深度空间的oneshot向量,该pixel位置的特征向量c与外积(即每个深度bin对应的值都会与c相乘得到一个特征向量再拼到一起如上图所示)得到lift之后的3D特征。
Splat
如下图所示,利用相机外参将Lift出的点云及对应的特征描述子合并到同一个坐标系下,再使用sum pooling整合为一个C × H × W的特征图(详细的作法参见pointpillars)。
Shoot
利用BEV feature预测K条轨迹中概率最大的那个(K条轨迹是根据先验提前聚类出来的)
Experiment
相关链接
OFT Orthographic Feature Transform for Monocular 3D Object Detection
pointpillars
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律