单目视觉里程计性能估计

D3VO: Deep Depth, Deep Pose and Deep Uncertaintyfor Monocular Visual Odometry

论文地址：https://arxiv.org/pdf/2003.01060.pdf

摘要

CVPR2020一篇关于视觉里程计和深度估计结合的文章，一作是很多人熟悉的杨楠大佬。这篇文章也是继DVSO又一篇DSO与深度估计结合的文章。

提出D3VO作为单目视觉里程计的新框架，该框架利用网络在三个层面的信息--深度，位姿和不确定性估计。首先提出了一种新颖的训练于双目视频的自监督单目深度估计网络，该网络没有使用任何外部监督信号,通过预测的亮度转换参数将训练图像对调整为相似的光照条件, 此外，还对图像中像素的光度不确定度进行了建模，这样不仅提高了深度估计的准确性还为DSO中的光度残差提供了一个学习过的加权函数。评估结果表明，所提出的网络优于最先进的自监督深度估计网络。D3VO 将预测的深度，位姿和不确定性紧密结合到直接视觉里程计中的前端跟踪以及后端非线性优化模块里。在KITTI和EuRoC MAV数据集对D3VO进行了评估。结果表明，D3VO在很大程度上优于最新的传统单目VO方法。它还可以达到与KITTI上最先进的双目/ LiDAR测距法， EuRoC上视觉惯导SOTA算法相媲美的结果。

背景知识

深度学习已经席卷了计算机视觉的大部分领域——不仅是像对象分类、检测和分割这样的高级任务[30,39,58]，还有像光流估计[12,65]和兴趣点检测和描述[11,13,79]这样的低级任务。然而，在同时定位和映射（SLAM）或视觉里程计（VO）领域，传统的基于几何的方法（16、17、53）仍然占主导地位。虽然单目算法[16,52]具有优势的硬件成本和较少的校准工作，由于尺度漂移[62,77]和低鲁棒性，无法实现与立体声[53,74]或视觉惯性里程计（VIO）[44,54,56,72]相比的竞争性能。通过利用深层神经网络来解决这个问题已经做了很多努力[48,68,80,83]。研究表明，在深度单目深度估计网络[26,27,43,78]中，深度网络能够通过从大量数据中学习先验知识来估计具有一致尺度的深度图，从而提高了单目VO的性能[42]。

然而，用这种方法，深层神经网络只能在有限的程度上使用。无监督单目深度估计网络的最新进展[26,86]表明，相邻单目帧的姿态可以与深度一起预测。由于深部神经网络的姿态估计具有很高的鲁棒性，有一个问题产生了：深部预测的姿态是否可以用来提高传统的VO？另一方面，由于SLAM/VO本质上是一个状态估计问题，其中不确定性起着重要的作用[19,63,69]，同时许多基于学习的方法已经开始估计不确定性，下一个问题是，如何将这种不确定性预测纳入基于优化的VO中？

在本文中，提出了D3VO作为一个框架，用于单目（无特征）视觉探索自监督单目深度估计网络的三个层次：深度、姿态和不确定性估计，如图1所示。为此，首先提出了一个纯自监督的立体视频训练网络。该自监督网络利用深度网预测单个图像的深度，利用PoseNet预测相邻两帧图像之间的姿态。这两个网络是通过最小化由静态立体扭曲与直线基线和使用预测姿势的时间扭曲引起的光度误差来桥接的。这样，在深度训练中加入时间信息，可以得到更精确的估计。为了处理训练图像对之间的不一致照明，网络预测亮度变换参数，这些参数在训练过程中使源图像和目标图像的亮度保持一致。对EuRoCMAV数据集的评估表明，提出的亮度变换显著提高了深度估计精度。为了将深度集成到VO系统中，用一个度量尺度用预测的深度初始化每个新的3D点。然后采用Deep-virtual-stereo-Odometry（DVSO）[78]中提出的虚拟立体项，将预测的姿态纳入到非线性优化中。与DVSO使用依赖于从最先进的立体VO系统中提取的辅助深度的半监督单目深度估计网络[74]不同，网络仅使用立体视频，而没有任何外部深度监督。

主要贡献

1. 本文提出了一个双目视频自监督深度估计网络，另外为了解决训练图片对之间的光照不一致，网络还预测了亮度变换参数，对原图片和目标图片之间的亮度进行了校准。为了将深度网络与VO系统进行结合，作者将每一个3D点用预测的深度进行初始化，然后利用DVSO中的virtual stereo term将预测的位姿整合进非线性优化中。

2. 尽管已经对光照变换进行了建模，但是光照并不是唯一违反光照不变假设的因素（动态物体等等也会），所以作者还对光度不确定性进行了预测，降低违反假设的像素的权重，这个学习到的权重函数可以替换传统VO系统里面基于经验设置的加权函数。

3. 鲁棒性也是VO算法的一个特别重要的因素，因此作者将预测出的位姿整合进前端跟踪和后端非线性优化中。在前端跟踪模块，作者用预测的位姿去替换之前的匀速运动模型，另外这个位姿也作为直接图像校准的平方正则项。在后端优化中，作者提出了位姿能量项和之前的能量目标函数放在一起优化。

算法流程

1. 自监督深度估计

本文的深度估计模块其实是源自于monodepth2（细节可以参考原论文）。优化目标函数如下