UniDepth:通用单目度量深度估计

UniDepth:通用单目度量深度估计
    精确的单目度量深度估计(MMDE)对于解决3D感知和建模中的下游任务至关重要。然而,最近MMDE方法的显著准确性与其训练领域不符。即使存在适度的域间隙,这些方法也无法推广到看不见的域,这阻碍了它们的实际应用。提出了一种新的模型UniDepth,能够从单个图像跨域重建度量3D场景。与现有的MMDE方法不同,UniDepth在推理时直接从输入图像中预测度量3D点,而无需任何额外信息,从而寻求一种通用且灵活的MMDE解决方案。特别是,UniDepth实现了一个自提示的相机模块,可以预测密集的相机表示,以调节深度特征。改进的模型利用了伪球面输出表示,该表示将相机和深度表示分开。此外,提出了一种几何不变性损失,以提高相机提示的深度特征的不变性。即使与直接在测试域上训练的方法相比,在零样本制度下对十个数据集的全面评估也始终证明了UniDepth的优越性能。
    新方法UniDepth可以直接预测场景中,只有一个图像作为输入的3D点,如图4-13中。
 
图4-13 新方法UniDepth可以直接预测场景中,只有一个图像作为输入的3D点
在图4-13中,UniDepth结合了相机自提示机制,并利用了由方位角、仰角和深度

 定义的伪球面3D输出空间。该设计有效地将相机和深度优化分开,避免了由于深度相关误差(

 )导致的相机模块的梯度。

UniDepth模型架构,如图4-14所示。
 
图4-14 UniDepth模型架构
在图4-14中,UniDepth仅利用输入图像来生成3D输出(

 )。它从相机模块中引导密集的相机预测(

 ),通过交叉注意力层将场景尺度上的先验知识注入深度模块。相机表示对应于方位角和仰角。几何不变性损失(

 )加强了基于不同几何增强(

 ,

 )的相机的深度特征张量之间的一致性。停止梯度应用于摄像机模块的编码特征(

 ),以防止摄像机梯度主导编码器中的深度梯度。深度输出(

 )是通过三个自关注块与可学习的2x上采样交织获得的。最终输出是相机和深度张量(

 )的连接,为

 创建了两个独立的优化空间。

posted @   吴建明wujianming  阅读(129)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2023-12-01 图形渲染操作系统分析
2022-12-01 自动泊车-RISC-V-飞桨生态分析
2021-12-01 2021年8-10月AI融资方向分析
2020-12-01 deepstream-开放式实时服务器
2020-12-01 GStreamer 1.0 series序列示例
2020-12-01 H265与ffmpeg改进开发
2020-12-01 FFmpeg扩展开发
点击右上角即可分享
微信分享提示