室外单目深度估计-2

注：刚入门depth estimation，这也是以后的主要研究方向，欢迎同一个方向的加入QQ群(602708168)交流。

1. 论文简介

论文题目：RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation

Paper地址：https://arxiv.org/pdf/2207.11984.pdf

Code地址：https://github.com/hmhemu/RA-Depth

Paper类型：深度学习方法

发表刊物：ECCV

发表时间：2022

2. Abstract

本文针对的问题：模型由固定尺寸的数据训练，在不固定尺寸上的测试集上性能有所降低；

本文提出的方法：提出了一个鲁棒自适应地自监督单目深度估计方法(RA-Depth)。

3. Introduction

深度估计的概念，背景，价值与意义介绍；

引出半监督。

现有self-supervised monocular depth estimation方法的局限性：训练在固定尺寸数据集；

在推理过程中性能下降；

并在图1中对比了训练和测试同一尺寸，Monodepth2和作者提出的方法都不错，而当测试

在其他尺寸时，Monodepth2下降明显。

本文的工作（个人感觉有点工作堆叠的意思，缺乏新颖性）：

提出了一个数据增强方法，用于生成不同尺度的图像；
提出了带有多尺度融合的框架；
提出了跨尺度的一致性损失；

4. Related Work

4.1 Supervised Monocular Depth Estimation

输入单幅图像到CNN，然后输出depth map，与GT计算loss。

4.2 Self-Supervised Monocular Depth Estimation

自监督方法将depth estimation看成重建问题，在立体对和单目序列使用光度损失。

5. Method

5.1 Problem Formulation

输入为3幅图像，两幅source view图像，以及一幅target view图像；

根据得到的depth map, 已知相机内参与相机位姿可以将源视角下的图像投影到目标视角。

两个损失函数，公式2,3。

5.2 Resolution Adaptive Self-Supervised Framework

5.2.1 Overview

方法流程：如图2所示，

第一步：给定输入数据,然后用数据增强方法扩增数据

得到三种训练数据，其中L，M与H表示小，中，大

三种尺度；然后用提出的Dual HRNet（双HRNet）预测depth maps。

第二步：投影；获得目标视角下图像的深度图，相机位姿（

所有图像公用统一位姿），三种源视角下的图像，我们可以将源视角的图像投影到

目标视角。

第三步：计算loss。

5.2.2 Arbitrary-Scale Data Augmentation

数据增强方式：

给定三种图像，分别resize成不同尺寸，对于M类，resize成(3,192,640),另外两类

根据缩放因子[0.7,0.9]和[1.1,2.0]进行缩放与扩大；

接着，对L类执行复制到M类图像中；M类图像保持不变；H类图像执行裁剪到与M一样大小；

最红得到的L,M,H都是h×w大小；

5.2.3 Dual HRNet for Monocular Depth Estimation

用HRNet作为Network。

细节请阅读原文。

5.2.4 Cross-Scale Depth Consistency Loss

计算夸尺度损失，原理很简单，就是让在三个预测的L,M,H深度图中，先获取相同

位置的深度图，再来做Loss。

6. Experiments

具体细节请参考原文。

7. 总结

　　本文最大的亮点在于数据集的增强设计以及损失函数的设计。
　　统一场景下的图像设定成不同size，让网络学习尺度不变鲁棒性。

　　损失函数的设计还是比较有特色，从L,M,H三类深度图中计算找出相同的部分，然后计算损失函数。

8. 结语

　　努力去爱周围的每一个人，付出，不一定有收获，但是不付出就一定没有收获！给街头卖艺的人零钱，不和深夜还在摆摊的小贩讨价还价。愿我的博客对你有所帮助(*^▽^*)(*^▽^*)！

　　如果客官喜欢小生的园子，记得关注小生哟，小生会持续更新(#^.^#)(#^.^#)。

posted @ 2023-02-07 15:17 抚琴尘世客阅读(220) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

抚琴尘世客