三维成像结构光

Micro-Baseline Structured Light

论文链接：

http://openaccess.thecvf.com/content_ICCV_2019/papers/Saragadam_Micro-Baseline_Structured_Light_ICCV_2019_paper.pdf

摘要

我们提出微基线结构光（MSL），一种新的三维成像方法，设计用于小尺寸设备，如手机和微型机器人。MSL使用小型投影仪相机基线和低成本的投影硬件，并且可以使用计算量较小的算法恢复场景深度。主要观察结果是，较小的基线会导致较小的差异，从而实现非线性SL图像形成模型的一阶近似。这导致了本文的关键理论结果：MSL方程，一种线性化的SL图像形成方法。由于每个像素处有两个未知量（深度和反照率），MSL方程受到约束，但可以使用局部最小二乘法有效地求解。我们从投影模式和基线等不同的系统参数来分析MSL的性能，并为优化性能提供指导。有了这些见解，我们建立了一个原型来实验检验这一理论及其实用性。

1. Introduction

我们提出了一种新的SL方法，称为微基线结构光（MSL），它适合于这种高度受限的设备，从而打开了在小型、低功耗和低复杂度设备上部署SL的可能性。MSL在小型（微型）投影仪相机基线的约束下工作，如图1（b）所示，基于以下观察：小基线导致投影仪和相机像素之间的小差异。

我们的主要理论见解是，在较小的差异下，结构光图像形成模型（在未知情况下（深度和反照率）是非线性的）可以通过一阶近似线性化。这导致了一个新的线性SL约束的推导，即微基线结构光（MSL）方程，它将场景反照率和深度与测量的强度联系起来。

2. Related Work

结构光编码技术：

一般来说，SL技术可分为多镜头和单镜头方法[25]。多镜头技术，如光条带化[2]、灰度编码[23]和正弦相移[3]，通过快速连续地投影多个图案来估计形状。这些技术可以通过计算简单的解码算法来恢复高精度的深度，但是需要复杂的投影设备（例如LCD、DMD），这些设备可以动态地改变投影模式，使得它们不适合动态场景和低复杂度的设备，例如手机。单次拍摄技术只投射一个模式，依赖于强度[32]、颜色[8，13]或局部邻域中投影仪对应的编码[9，20，14]。单模式技术非常适合动态场景；然而，这些技术通常使用计算复杂的解码算法，需要专用硬件来实现实时性能。有一些单镜头方法具有相对简单的解码（例如傅里叶变换轮廓术（FTP）[30]），但它们对场景的纹理和深度做出了强有力的假设。

实时SL系统：

有一些方法可用于执行高速（1000 fps）SL，或者使用无法移植到移动设置的高成本高速摄像机[12]，或者最近使用基于学习的方法，如超深度[24]和UltraTereo[7]。有了足够的数据，以及Kinect[1]等专用硬件，这些方法被证明是快速和准确的。

我们的目标不同

我们的目的是发展一种简单的，解析的，封闭形式的解码方法，利用传统的SL方程在小基线约束下的微分公式。未来一个有趣的研究方向是使用数据驱动技术来增强MSL，以潜在地进一步提高精度和速度。

3. Structured Light Preliminaries

我们首先描述SL系统的图像形成模型，以了解投影相机基线在结构光系统中的作用。图像形成模型。考虑如图1（b）所示的投影仪-摄像机对。我们假设一个矩形投影仪或摄像机配置，其中投影仪和摄像机中心水平移动B个单位。我们进一步假设投影仪和相机具有相同的空间分辨率和焦距f。这些假设只是为了便于说明；所提供的分析和技术对于一般配置和系统参数是有效的。

在下一节中，我们设计了一种技术，该技术要求投影一个模式（但捕获两个图像），但计算成本较低，因此可以在功率受限的系统上高效地实现。此外，尽管传统的SL系统使用尽可能大的基线，但所提出的技术是针对小尺寸器件而设计的，该器件只允许投影仪和相机之间有一个小（微）基线。

4. Micro-baseline Structured Light

与微分法的关系

上述分析与最近为光度立体设计的差分方法[5]和基于光场的运动估计[18]有相似之处。这些方法也线性化了一个本来很难解决的非线性问题，从而产生了易于处理的分析和解决方案。本着同样的精神，MSL可以被看作是SL的一个差分版本。

与光流的关系

值得注意的是，MSL矩阵类似于LucasKanade tracker[16]中的结构张量。在立体视觉的背景下，视差/光流的类似线性化和2×2矩阵的形成已经被探索过[6，21]。结构张量和MSL矩阵的一个关键区别是MSL矩阵只依赖于投影模式及其导数。因此，MSL矩阵的可逆性只能根据投影模式的性质来分析，而不能根据场景来分析。

5. Invertibility of MSL Matrix

这个命题指出，通过投影一个不是常数或指数函数的模式，理论上保证MSL方程有解。接下来，我们讨论解的稳定性，这是存在噪声时的一个重要考虑因素。因此，当投影模式是周期性的时，MSL方程的解是稳定的。模式周期可能与分析窗口不对齐。然而，在实践中，如我们的实验所示，深度估计对小的偏差是稳健的。

6. Handling Texture Edge

为了保持计算简单，我们假设反照率只是引导图像的缩放版本。图2通过计算高纹理对象的深度说明了引导MSL相对于标准MSL的优势。导频MSL极大地提高了基于MSL的深度恢复精度，几乎没有计算开销，从而扩展了所提出方法的范围。此后，我们的所有结果都是使用引导MSL方法计算的。

7. Practical Considerations for MSL

图3（b）说明了作为一些代表性模式周期的基线函数的精度。显然，与最小误差相对应的周期随着基线的增大而增大。

小基线确保一阶近似成立，但遭受三角测量误差[31]。另一方面，大基线需要一个大窗口，因此局部不变假设可能不成立。图4显示了作为基线函数的精度模拟。对于此分析，给定基线，我们选择达到该基线的最佳精度的模式周期。我们观察到，MSL在一组不同的例子中始终达到8-30mm之间的最高精度。在实际应用中，参数的准确选择取决于几个附加因素，如投影仪的允许分辨率、相机和投影仪的散焦。我们发现15mm的基线导致了最精确的结果，因此我们的实验室原型与此基线相符合（见图6）。

在什么样的设备约束下，MSL比现有的SL技术更合适？MSL的目标是具有受限的外形、低硬件复杂度和计算资源的平台，因此不应被视为现有测距硬件的通用替代方案。例如，如果一个系统能够投射多个模式，那么相移[3]即使在窄基线下也能精确工作，如图5所示。同样，如果一个系统有足够的计算资源和/或大基线，现有的单发技术[20、8、33、1、7、24]可以达到比MSL更高的精度。

此外，如果该系统配备了两个摄像机，则可以依靠精确的立体匹配技术[17]来获得对应关系，尽管计算要求很高。然而，当所考虑的设备体积小，硬件和计算能力有限时，MSL承诺提供一个重量轻的解决方案。图5说明，MSL比小于100毫米的基线的块匹配更精确，同时速度也更快。虽然具体数字取决于具体配置，但当基线很小且只能投影单个图案时，MSL是合适的。

8. Experiments

硬件设置

我们的设备包括一台1280×720 DLP投影仪（AAXA technologies），f=8mm和一台2048×1536机器视觉摄像机（Basler acA2040120uc），f=12mm。不同的焦距和像素大小导致相机图像中的投影仪图形大小为2.5倍。摄像机放置在投影仪上方，水平基线为15mm，如图6所示。该系统还具有沿垂直方向的基线，这是由于机械约束而无法避免的。然而，由于我们提出了一个垂直对称的模式，因此只考虑水平基线和差异；垂直基线不影响水平差异的计算。

基本事实

我们使用五个频率的相移码捕获地面真实深度信息，对应于1280px、100px、50px、20px和10px的模式周期。低频被用来展开高频相位，这使得亚像素级的视差精确估计成为可能。

手机上的运行时比较

为了评估实时性，我们通过投影ran 800mm dom点模式，将MSL与具有微基线的立体块匹配算法进行了比较。结果如图7所示。请注意，投影模式以及解码策略没有针对窄基线进行优化；我们在这里的重点是比较时序复杂性而不是准确性。图5（b）显示了Android设备googlepixel2xl上不同图像分辨率的运行时与现有的基于匹配的方法（如块匹配和使用OpenCV[4]实现的半全局方法（SGBM））之间的比较。块匹配和半全局匹配3MP图像的运行时间分别为133ms和1s。相比之下，MSL在27ms时的速度要快得多，这表明MSL适合于移动平台。

视频序列

轻型SL技术的一个优点是能够以视频速率计算深度。为了验证这一点，我们以每秒30帧的速度拍摄了一系列图像，用于视频率3D成像。交替帧被捕获，没有任何模式用作指导图像。该系统以15fps的速度输出深度视频和无模式视频，无需计算（无需模式-场景分离），通常用于增强现实。我们在图8中显示了三个具有代表性的深度框架。请注意，深度变化在各种手势中都清晰可见。更重要的是，用于估计深度的计算开销非常小，可以实时输出，这使得MSL成为移动系统的一项引人注目的技术。

实验评价

图9显示了在几何和纹理复杂度不同的几个场景中基于MSL的3D恢复结果。所有的实验都用不同时期的三角形模式捕捉到，展示了MSL可以使用的各种场景。第一行显示具有各种纹理复杂性的平面对象的结果。人体模型场景演示了纹理有限的非平面场景的MSL。注意三维模型如何显示前额和脸颊的曲线。最后，bas地形场景显示了小深度范围但高空间复杂度的精度。通过显示6px周期的图形，计算了bas地形场景的深度图，获得了较高的空间分辨率。请注意，在3D模型中精确地重建了摄像机的大腿。在所有情况下，深度误差小于8毫米。

失败案例

由于MSL是一种局部加窗估计技术，因此计算出的深度边缘处的深度被平滑，从而导致粘附到对象边界（参见图9中的平面场景）。高纹理对象和复杂几何体（如精细结构）的性能也会因违反局部恒定性假设而降低。其次，制导MSL假设窗口内的反照率是环境光照下图像的缩放版本。如果环境照明、投影仪照明或反射或表面法线的光谱有很大变化，从而导致伪影，则此假设不成立。第三，MSL依赖于亚像素精度的强度-视差，但容易受到间接照明的影响，因此在相互反射或次表面散射下无法很好地工作（见图10）。

9. Discussion

我们提出了一种新的SL技术，它可以在窄基线、简单、低成本的硬件和低计算能力的限制下运行。通过对投影相机对应方程的线性化，我们证明了使用局部最小二乘法可以有效地估计深度。为投影图案的设计提供了理论和实践指导。MSL能够用有限的硬件进行深度计算，使其成为手机、无人机、微型机器人和内窥镜上的理想距离成像技术。

posted @ 2020-04-09 19:35 吴建明wujianming 阅读(964) 评论(0) 编辑收藏举报

刷新页面返回顶部

吴建明

三维成像结构光

公告