UniDepth：通用单目度量深度估计

UniDepth：通用单目度量深度估计

精确的单目度量深度估计（MMDE）对于解决3D感知和建模中的下游任务至关重要。然而，最近MMDE方法的显著准确性与其训练领域不符。即使存在适度的域间隙，这些方法也无法推广到看不见的域，这阻碍了它们的实际应用。提出了一种新的模型UniDepth，能够从单个图像跨域重建度量3D场景。与现有的MMDE方法不同，UniDepth在推理时直接从输入图像中预测度量3D点，而无需任何额外信息，从而寻求一种通用且灵活的MMDE解决方案。特别是，UniDepth实现了一个自提示的相机模块，可以预测密集的相机表示，以调节深度特征。改进的模型利用了伪球面输出表示，该表示将相机和深度表示分开。此外，提出了一种几何不变性损失，以提高相机提示的深度特征的不变性。即使与直接在测试域上训练的方法相比，在零样本制度下对十个数据集的全面评估也始终证明了UniDepth的优越性能。

新方法UniDepth可以直接预测场景中，只有一个图像作为输入的3D点，如图4-13中。

图4-13 新方法UniDepth可以直接预测场景中，只有一个图像作为输入的3D点

在图4-13中，UniDepth结合了相机自提示机制，并利用了由方位角、仰角和深度

定义的伪球面3D输出空间。该设计有效地将相机和深度优化分开，避免了由于深度相关误差（

）导致的相机模块的梯度。

UniDepth模型架构，如图4-14所示。

图4-14 UniDepth模型架构

在图4-14中，UniDepth仅利用输入图像来生成3D输出（

）。它从相机模块中引导密集的相机预测（

），通过交叉注意力层将场景尺度上的先验知识注入深度模块。相机表示对应于方位角和仰角。几何不变性损失（

）加强了基于不同几何增强（

，

）的相机的深度特征张量之间的一致性。停止梯度应用于摄像机模块的编码特征（

），以防止摄像机梯度主导编码器中的深度梯度。深度输出（

）是通过三个自关注块与可学习的2x上采样交织获得的。最终输出是相机和深度张量（

）的连接，为

创建了两个独立的优化空间。

posted @ 2024-12-01 04:58 吴建明wujianming 阅读(129) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· MonoCD：具有互补深度的单眼3D物体检测

· FUTR3D一种用于三维检测的统一传感器融合框架

· Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation

· 室内单目深度估计-1

· 室内单目深度估计-2

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2023-12-01 图形渲染操作系统分析
2022-12-01 自动泊车-RISC-V-飞桨生态分析
2021-12-01 2021年8-10月AI融资方向分析
2020-12-01 deepstream-开放式实时服务器
2020-12-01 GStreamer 1.0 series序列示例
2020-12-01 H265与ffmpeg改进开发
2020-12-01 FFmpeg扩展开发

公告

昵称：吴建明wujianming
园龄： 7年5个月
粉丝： 532
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:云计算服务器技术市场分析
Super Pi linux工具可以提供下吗？网上包括官方的都没法在centos、ubuntu os下跑，

xuxu8511@163.com 多谢。
--xu111122
2. Re:RISC-V指令列表分析
jalr中的14到12位应该为000而不是010吧
--洛天V
3. Re:《LLVM编译器原理与实践》新书推荐（已出版）
已买，学习中，支持博主
--tieyan
4. Re:NPU与超异构计算杂谈
好文章，很详细的对异构做了Overview！感谢大佬🫡
--kaiZH
5. Re:《LLVM编译器原理与实践》新书推荐（已出版）
这本书中对于LLVM垃圾回收机制statepoint有做研究吗？或者博主有推荐的资料吗？官网的资料确实比较晦涩难懂而且没有案例。
--wingrez