代码改变世界

第一个「视觉惯性里程计+深度图」 的数据集 && 用VIO实现的无监督深度图补全方法

  计算机视觉life  阅读(740)  评论(0编辑  收藏  举报

第一个提出 「视觉惯性里程计+深度图」 的数据集 “Visual Odometry with Inertial and Depth” (VOID) dataset

论文名称 《Unsupervised Depth Completion from Visual Inertial Odometry》

期刊:ICRA2020

作者:加州大学洛杉矶分校

本文代码:https://github.com/alexklwong/unsupervised-depth-completion-visual-inertial-odometry

本文制作的首个VOID数据集:https://github.com/alexklwong/void-dataset

本文使用的VIO方法:https://github.com/ucla-vision/xivo

本文描述了一种通过摄像头运动和视觉惯性里程计估计的稀疏深度推断密集深度的方法。不同于来自激光雷达或结构光传感器的产生的点云,我们只有几百到几千的点,不足以了解场景的拓扑结构。我们的方法首先构建了场景的分段平面的框架,然后使用这些框架、图像和稀疏点推断密集深度。我们使用一种预测的交叉模态标准,类似于 “自我监督”,测量不同时间的光度一致性、前后姿态一致性以及与稀疏点云的几何兼容性。

本文提出了第一个视觉惯性 + 深度数据集,我们希望这将有助于进一步探索视觉和惯性传感器的互补优势。为了将我们的方法与之前的工作进行比较,我们采用了无监督的 KITTI 深度完成基准,在该基准中我们实现了最优的性能。

本文的工作实现了如下图所示功能:左上为输入RGB图像,左下为来自VIO的轨迹和稀疏重建点。右上为本文方法得到的稠密点云结果

在这里插入图片描述

本文算法框架如下图所示:

在这里插入图片描述

如何利用神经网络学习来对深度图结果进行refine?如下图所示

在这里插入图片描述

在KITTI数据集上的可视化结果如下所示:

在这里插入图片描述

在我们的数据集VOID上的可视化结果:

在这里插入图片描述

在VOID数据集上的量化结果:

在这里插入图片描述

VOID数据集介绍

总共包括56个视频序列,其中48个序列是训练集,每个包括4万张图片,另外8个序列是测试集。 数据集覆盖室外、室内各种场景,包括classrooms, offices, stairwells, laboratories, gardens等。

下图左侧是网络输入的RGB原图,右侧是输出的补全的深度图投影到三维空间的点云。

在这里插入图片描述

在KITTI 深度图补全测试数据集上的结果

在这里插入图片描述
计算机视觉是人工智能之眼。公众号已原创170篇文章,兼具系统性,严谨性,易读性,菜单栏点击“汇总分类”查看原创系列包括:三维视觉、视觉SLAM、深度学习、机器学习、深度相机、入门科普、CV方向简介、手机双摄、全景相机、相机标定、医学图像、前沿会议、机器人、ARVR、行业趋势等。同时有入门基础、项目实战、面试经验、教学资料等干货。一键关注星标,加技术交流群,一起进步。
在这里插入图片描述

编辑推荐:
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
阅读排行:
· 周边上新:园子的第一款马克杯温暖上架
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?
· 使用C#创建一个MCP客户端
点击右上角即可分享
微信分享提示