ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detection
ImVoxelNet这是一种基于单目或多视图 RGB 图像的 3D 对象检测的新型全卷积方法,根据RGB图进行3D检测.
这种方法其实比较简单,先在多张2D RGB图上进行卷积操作(共享2D卷积核),然后将特征映射到3D体素上,同一个体素有多个特征的进行简单的平均池化操作,然后用3D卷积核进行卷积操作,最后提出3D预测.
检测头分为室外头和室内头.户外视为2D BEV平面检测,由于主要是检测汽车,大小差不多,属于单尺寸单类检测,因此头部由两个平行的二维卷积层组成,一个估计类概率,另一个回归边界框的7个参数.
室内头使用中间特征的密集体素表示,采用类似于FCOS的方法,不过用3D卷积替代了FCOS的2D卷积.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 字符编码:从基础到乱码解决
2021-11-13 GFL: Generalized Focal Loss