ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detection
ImVoxelNet这是一种基于单目或多视图 RGB 图像的 3D 对象检测的新型全卷积方法,根据RGB图进行3D检测.
这种方法其实比较简单,先在多张2D RGB图上进行卷积操作(共享2D卷积核),然后将特征映射到3D体素上,同一个体素有多个特征的进行简单的平均池化操作,然后用3D卷积核进行卷积操作,最后提出3D预测.
检测头分为室外头和室内头.户外视为2D BEV平面检测,由于主要是检测汽车,大小差不多,属于单尺寸单类检测,因此头部由两个平行的二维卷积层组成,一个估计类概率,另一个回归边界框的7个参数.
室内头使用中间特征的密集体素表示,采用类似于FCOS的方法,不过用3D卷积替代了FCOS的2D卷积.