UniDepth:通用单目度量深度估计
UniDepth:通用单目度量深度估计
精确的单目度量深度估计(MMDE)对于解决3D感知和建模中的下游任务至关重要。然而,最近MMDE方法的显著准确性与其训练领域不符。即使存在适度的域间隙,这些方法也无法推广到看不见的域,这阻碍了它们的实际应用。提出了一种新的模型UniDepth,能够从单个图像跨域重建度量3D场景。与现有的MMDE方法不同,UniDepth在推理时直接从输入图像中预测度量3D点,而无需任何额外信息,从而寻求一种通用且灵活的MMDE解决方案。特别是,UniDepth实现了一个自提示的相机模块,可以预测密集的相机表示,以调节深度特征。改进的模型利用了伪球面输出表示,该表示将相机和深度表示分开。此外,提出了一种几何不变性损失,以提高相机提示的深度特征的不变性。即使与直接在测试域上训练的方法相比,在零样本制度下对十个数据集的全面评估也始终证明了UniDepth的优越性能。
新方法UniDepth可以直接预测场景中,只有一个图像作为输入的3D点,如图4-13中。

图4-13 新方法UniDepth可以直接预测场景中,只有一个图像作为输入的3D点
在图4-13中,UniDepth结合了相机自提示机制,并利用了由方位角、仰角和深度
定义的伪球面3D输出空间。该设计有效地将相机和深度优化分开,避免了由于深度相关误差(
)导致的相机模块的梯度。
UniDepth模型架构,如图4-14所示。

图4-14 UniDepth模型架构
在图4-14中,UniDepth仅利用输入图像来生成3D输出(
)。它从相机模块中引导密集的相机预测(
),通过交叉注意力层将场景尺度上的先验知识注入深度模块。相机表示对应于方位角和仰角。几何不变性损失(
)加强了基于不同几何增强(
,
)的相机的深度特征张量之间的一致性。停止梯度应用于摄像机模块的编码特征(
),以防止摄像机梯度主导编码器中的深度梯度。深度输出(
)是通过三个自关注块与可学习的2x上采样交织获得的。最终输出是相机和深度张量(
)的连接,为
创建了两个独立的优化空间。
人工智能芯片与自动驾驶
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2023-12-01 图形渲染操作系统分析
2022-12-01 自动泊车-RISC-V-飞桨生态分析
2021-12-01 2021年8-10月AI融资方向分析
2020-12-01 deepstream-开放式实时服务器
2020-12-01 GStreamer 1.0 series序列示例
2020-12-01 H265与ffmpeg改进开发
2020-12-01 FFmpeg扩展开发