3D点云完美匹配

3D点云完美匹配

The Perfect Match: 3D Point Cloud Matching with Smoothed Densities

地址链接:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Gojcic_The_Perfect_Match_3D_Point_Cloud_Matching_With_Smoothed_Densities_CVPR_2019_paper.pdf

代码链接:https://github.com/zgojcic/3DSmoothNet

摘要

提出三维平滑网,一个完整的工作流程来匹配三维点云与siamese深度学习架构和全卷积层使用体素化平滑密度值(SDV)表示。后者按兴趣点计算,并与局部参考坐标系(LRF)对齐,以实现旋转不变性。紧凑、学习、旋转不变的三维点云描述符在3DMatch基准数据集[49]上实现了94.9%的平均召回率,在仅32个输出维度的情况下,其性能超过最新水平20%以上。这种非常低的输出维度允许在标准PC上对每个特征点进行0.1毫秒的近实时对应搜索。SDV、LRF和学习具有完全卷积层的高描述性特征,本文用传感器和场景诊断。在建筑物的RGB-D室内场景上训练的3d smoothnet在室外植被的激光扫描上达到79.0%的平均召回率,比最近的、以学习为基础的竞争对手[49、17、5、4]的性能提高了一倍以上。

贡献

提出了一种新的用于三维点云匹配的紧凑学习局部特征描述子,该描述子计算效率高,性能显著优于现有的所有方法。

一个主要技术创新是平滑密度值(SDV)体素化,是一种新的输入数据表示方法,适用于标准深度学习库的完全卷积层。SDV的增益是两倍。一方面,它减少了稀疏性输入体素网格,在反向传播过程中有更好的梯度流动,同时减少边界效应,以及平滑由于局部参考帧(LRF)估计错误而导致的小的未对准。另一方面,模拟了深层网络通常在第一层学习的平滑,节省了学习高度描述性特征的网络容量。

其次,提出了一个具有完全卷积层的暹罗网络结构,学习一个非常紧凑的、旋转不变的3D局部特征描述。这种方法生成低维、高度描述性的特征,这些特征概括了不同的传感器模式以及从室内到室外的场景。

此外,证明了低维特征描述符(只有16或32个输出维)极大地加快了对应搜索的速度,从而允许实时应用。

 

 

 

 工作流程如下(图2和3):

i)给定两个原始点云。

ii)计算随机选择的兴趣点周围球面邻域的LRF。

iii)将邻域转换为其规范表示。

i v)借助高斯平滑对其进行体素化。

v)推断每个点的局部特征使用3DSmoothNet的描述符,例如,用作基于RANSAC的健壮点云注册管道的输入。

 

 

 

 与手工制作的特征表示不同,SDV体素网格表示为输入提供了几何信息结构,能够利用卷积层来捕获点云的局部几何特征(图5)。

网络架构(图3)受到L2Net[36]的启发,L2Net是一个最先进的学习型局部图像描述符。3DSmoothNet由堆叠的卷积层组成,在一些卷积层中应用2步(而不是最大池)来向下采样输入[33]。除最后一层外,所有卷积层后面都是批量标准化[14]并使用ReLU激活函数[22]。

3DMatch数据集的点云碎片上训练3dsmouthNet(图3)[49]。这是一个RGB-D数据集,由62个真实的室内场景组成,从办公室和酒店房间到桌面和卫生间。从数据集池[41、32、19、39、3]获得的点云被分成54个场景进行训练,8个场景进行测试。每一个场景被分割成若干部分重叠的片段,其地面真值转换参数为T。

 

 

 

 表中总结了与3DMatch数据集的最新实验评估结果的比较。图4所示为1(左)和2个hard数据集。

一般目标是以最低的输出维度(即3dsmouthNet最后一个卷积层中的滤波器数目)实现最高的匹配性能,以减少运行时间并节省内存。首先进行测试,以找到3dsmouthNet描述符匹配性能和效率之间的一个很好的折衷方案。随着输出尺寸的增加,3dsmouthNet的性能很快开始饱和(图6)。当使用超过64个维度时,只有边际改进(如果有的话)。决定只对16维和32维的3DSmoothNet进行进一步的实验。

增大输入比τ2=0.2显著减少RANSAC迭代到≈850,大大加快处理速度。评估了与所有其他测试方法相比,逐渐增加的内联比如何改变3DSmoothNet的性能(图7)。当τ2=0.2时,所有其他方法的平均召回率都低于30%,而(16)(蓝色)和(32)(橙色)的召回率分别高达62%和72%。只要3dsmouthNet替换现有的描述符,任何基于描述符的点云注册管道都可以变得更加高效。

 

 由于内存限制,3DMatch使用边缘等于1.5 m的体素网格。ETH数据集的结果报告在表3中。3DSmoothNet的平均性能最好(右栏),本文平均召回率为79.0%,明显优于平均召回率为48.2%,因为它的输出维度更大。(32人)以超过15%的分数击败亚军(无监督),而所有最先进的方法都显著低于30%。事实上,(32)应用于室外激光扫描仍然优于所有在3DMatch数据集上接受训练和测试的竞争对手(参见表1,表3)。

3DMatch测试片段上每个兴趣点的方法平均运行时间与Tab4中的[49]进行比较(与Intel Xeon E5-1650、32 GB ram和NVIDIA GeForce GTX1080运行在同一台PC上)。注意,输入准备(input prep.)和[49]的推断是在GPU上处理的,在CPU上以当前状态进行输入准备。

posted @ 2020-05-25 19:43  吴建明wujianming  阅读(3494)  评论(0编辑  收藏  举报