ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detection

ImVoxelNet这是一种基于单目或多视图 RGB 图像的 3D 对象检测的新型全卷积方法,根据RGB图进行3D检测.

这种方法其实比较简单,先在多张2D RGB图上进行卷积操作(共享2D卷积核),然后将特征映射到3D体素上,同一个体素有多个特征的进行简单的平均池化操作,然后用3D卷积核进行卷积操作,最后提出3D预测.

检测头分为室外头和室内头.户外视为2D BEV平面检测,由于主要是检测汽车,大小差不多,属于单尺寸单类检测,因此头部由两个平行的二维卷积层组成,一个估计类概率,另一个回归边界框的7个参数.

室内头使用中间特征的密集体素表示,采用类似于FCOS的方法,不过用3D卷积替代了FCOS的2D卷积.

 

posted @ 2022-11-13 14:40  MSTK  阅读(300)  评论(0编辑  收藏  举报