基于图像的三维物体重建:在深度学习时代的最新技术和趋势综述之性能比较和未来研究方向

作者:Longway

来源:公众号@3D视觉工坊

链接: 基于图像的三维物体重建:在深度学习时代的最新技术和趋势综述之性能比较和未来研究方向

1性能比较

本节讨论一些关键方法的性能,下面将介绍各种性能标准和度量,并讨论和比较一些关键方法的性能。

1.1精度指标和性能标准

设X为真实三维形状,X~为重建形状。下面将讨论一些用于比较三维重建算法的精度指标和性能标准。

1.1.1精度指标

评估三维重建算法精度最常用的量化指标包括:

(1)均方误差(MSE)。它定义为重构形状X~与真实X之间的对称表面距离,即

这里,nX和nX~分别是X和X~上密集采样点的数目,d(p,X)是p到X沿垂直方向到X的距离,例如L1或L2距离。距离越小,重建就越好

(2)联合交叉(IoU)。IoU测量预测形状的体积与真实体积的交集与两个体积的并集的比率,即

其中I(·)是指示函数,V~i是第三个体素的预测值,Vi是基本真值,是阈值。IoU值越高,重建效果越好,这一指标适用于体积重建。因此,在处理基于曲面的表示时,需要对重建的和真实的三维模型进行体素化。

(3)交叉熵(CE)损失的平均值。定义如下:

其中N是体素或点的总数,具体取决于是使用体积表示还是基于点的表示。p和p~分别表示在i点处体素或点的真值和预测值。CE值越低,重建效果越好。

1.1.2性能标准

除了这些定量指标外,还有几个定性方面用于评估这些方法的效率。这包括:

(1)三维监督程度。基于深度学习的三维重建方法的一个重要方面是训练时对三维监督的程度。事实上,虽然获取RGB图像很容易,但获取其相应的真实3D数据却相当具有挑战性。因此,在训练过程中,与那些需要真实三维信息的技术相比,通常更倾向于需要最少或不需要三维监督的技术。

(2)计算时间。虽然训练速度可能很慢,但通常情况下,希望在运行时实现实时性能。

(3)内存占用。深层神经网络具有大量的参数。其中一些使用三维卷积对卷进行操作。因此,它们通常需要较大的内存存储,这会影响它们在运行时的性能并限制它们的使用。

1.2比较与讨论

下图介绍了过去4年重建精度的改进。早期的研究大多采用体素化表示,它既可以表示任意拓扑复杂对象的表面细节,也可以表示复杂对象的内部细节。随着O-CNN、OGN和OctNet等空间分割技术的引入,体积技术可以获得相对较高的分辨率,例如5123。这是由于内存效率的显著提高。

然而,由于这些技术实现的复杂性,只有一些论文采用了这些技术。为了实现高分辨率的三维体积重建,最近的许多论文都使用了中间表示,通过多个深度图,然后进行体积或基于点的融合。

最近,有几篇论文开始关注学习连续有符号距离函数的机制或连续占用网格,这些机制在内存需求方面要求较低。它们的优点是,由于它们学习了一个连续的场,因此可以在所需的分辨率下提取重建的三维物体。

上图显示了自2016年以来,使用ShapeNet数据集作为基准的几年来性能的演变。在大小为323的体网格上计算的IoU度量上,我们可以看到在训练和测试时使用多个视图的方法优于仅基于单个视图的方法。此外,2017年开始出现的基于表面的技术略优于体积方法。

下表展示了一些有代表性的方法的性能。

2未来研究方向

在过去五年的广泛研究中,利用深度学习技术进行基于图像的三维重建取得了很好的效果。然而,这一专题仍处于初级阶段,有待进一步发展。在本节中将介绍一些当前的问题,并强调未来研究的方向。

(1)训练数据问题。深度学习技术的成功在很大程度上取决于训练数据的可用性,不幸的是,与用于分类和识别等任务的训练数据集相比,包含图像及其3D注释的公开数据集的大小很小。二维监督技术被用来解决缺乏三维训练数据的问题。然而,它们中的许多依赖于基于轮廓的监督,因此只能重建视觉外壳。

因此,期望在未来看到更多的论文提出新的大规模数据集、利用各种视觉线索的新的弱监督和无监督方法,以及新的领域适应技术,其中使用来自某个领域的数据训练的网络(例如,合成渲染图像)适应新的领域。研究能够缩小真实图像和综合渲染图像之间差距的渲染技术,可能有助于解决训练数据问题。

(2)对看不见的物体的一般化。大多数最新的论文将数据集分成三个子集进行训练、验证和测试,例如ShapeNet或Pix3D,然后测试子集的性能。但是,还不清楚这些方法如何在完全不可见的对象/图像类别上执行。实际上,三维重建方法的最终目标是能够从任意图像中重建任意三维形状。然而,基于学习的技术仅在训练集覆盖的图像和对象上表现良好。

(3)精细的三维重建。目前最先进的技术能够恢复形状的粗糙三维结构,虽然最近的工作通过使用细化模块显著提高了重建的分辨率,但仍然无法恢复植物、头发和毛皮等细小的部分。

(4)重建与识别。图像三维重建是一个不适定问题。因此,有效的解决方案需要结合低层次的图像线索、结构知识和高层次的对象理解。如Tatarchenko[44]最近的论文所述,基于深度学习的重建方法偏向于识别和检索。因此,他们中的许多人没有很好地概括,无法恢复精细的尺度细节。期望在未来看到更多关于如何将自顶向下的方法(即识别、分类和检索)与自下而上的方法(即基于几何和光度线索的像素级重建)相结合的研究,这也有可能提高方法的泛化能力。

(5)专业实例重建。期望在未来看到特定于类的知识建模和基于深度学习的三维重建之间的更多协同作用,以便利用特定于领域的知识。事实上,人们对重建方法越来越感兴趣,这些方法专门用于特定类别的物体,如人体和身体部位、车辆、动物、树木和建筑物。

专门的方法利用先前和特定领域的知识来优化网络体系结构及其训练过程。因此,它们通常比一般框架表现得更好。然而,与基于深度学习的三维重建类似,建模先验知识需要三维注释,这对于许多类型的形状(例如野生动物)来说是不容易获得的。

(6)在有遮挡和杂乱背景的情况下处理多个对象。大多数最先进的技术处理包含单个对象的图像。然而,在野生图像中,包含不同类别的多个对象。以前的工作采用检测,然后在感兴趣的区域内重建。

然而,这些任务是相互关联的,如果共同解决,可以从中受益。为实现这一目标,应处理两个重要问题。一是缺乏多目标重建的训练数据。其次,设计合适的CNN结构、损失函数和学习方法是非常重要的,特别是对于没有3D监督的训练方法。这些方法通常使用基于轮廓的损失函数,需要精确的对象级分割。

(7)3D视频。本文研究的是一幅或多幅图像的三维重建,但没有时间相关性,而人们对三维视频越来越感兴趣,即对连续帧具有时间相关性的整个视频流进行三维重建。一方面,帧序列的可用性可以改善重建,因为可以利用后续帧中可用的附加信息来消除歧义并细化当前帧处的重建。另一方面,重建的图像在帧间应该平滑一致。

(8)走向全三维场景解析。最后,最终目标是能够从一个或多个图像中语义分析完整的3D场景。这需要联合检测、识别和重建。它还需要捕获和建模对象之间和对象部分之间的空间关系和交互。虽然在过去有一些尝试来解决这个问题,但它们大多局限于室内场景,对组成场景的对象的几何和位置有很强的假设。

3总结和结论

本文综述了近五年来利用深度学习技术进行基于图像的三维物体重建的研究进展,将最新技术分为基于体积、基于表面和基于点的技术。然后,根据它们的输入、网络体系结构和它们使用的训练机制讨论了每个类别中的方法,还讨论并比较了一些关键方法的性能。

这项调查的重点是将三维重建定义为从一个或多个RGB图像中恢复对象的三维几何体的问题的方法。然而,还有许多其他相关问题也有类似的解决办法。包括RGB图像的深度重建、深度图像的三维重建、新视角合成和三维形状结构恢复等等。在过去五年中,这些主题已被广泛调查,需要单独的调查报告。

本文仅做学术分享,如有侵权,请联系删文。

posted @ 2020-08-01 15:50  3D视觉工坊  阅读(928)  评论(0编辑  收藏  举报