ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detection

ImVoxelNet这是一种基于单目或多视图 RGB 图像的 3D 对象检测的新型全卷积方法,根据RGB图进行3D检测.

这种方法其实比较简单,先在多张2D RGB图上进行卷积操作(共享2D卷积核),然后将特征映射到3D体素上,同一个体素有多个特征的进行简单的平均池化操作,然后用3D卷积核进行卷积操作,最后提出3D预测.

检测头分为室外头和室内头.户外视为2D BEV平面检测,由于主要是检测汽车,大小差不多,属于单尺寸单类检测,因此头部由两个平行的二维卷积层组成,一个估计类概率,另一个回归边界框的7个参数.

室内头使用中间特征的密集体素表示,采用类似于FCOS的方法,不过用3D卷积替代了FCOS的2D卷积.

 

posted @   MSTK  阅读(311)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 字符编码:从基础到乱码解决
历史上的今天:
2021-11-13 GFL: Generalized Focal Loss
点击右上角即可分享
微信分享提示