基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述
基于图像语义的可视化同时定位和建图的面向应用程序的移动机器人自主导航解决方案综述
论文名称: A survey of image semantics-based visual simultaneous localization and mapping Application-oriented solutions to autonomous navigation of mobile robots
作者: Linlin Xia, Jiashuo Cui, Ran Shen, Xun Xu, Yiping Gao and Xinying Li
论文下载:https://journals.sagepub.com/doi/pdf/10.1177/1729881420919185
作者主页:https://orcid.org/0000-0002-5079-3788
本文的核心思想
作为机器人自主导航的经典方案之一,视觉同步定位和建图(V-SLAM)有着本质的限制,这些限制来自于对以图像几何特征为基础的单纯环境理解。相对比,语义SLAM以高层次的环境感知为特点,因此开启了一道新的大门,即将图像语义应用于有效位姿估计,回环检测,构建3D地图等等。这篇文章详细回顾了语义SLAM的近期发展,主要涵盖不同SLAM方案的感知能力,鲁棒性和准确性。特别的,“语义提取器”的概念和“现代同步定位和建图(modern SLAM)”的框架被提出。本文进一步在宏观角度讨论了一些开放问题,并尝试找到对应答案。本文认为,多尺度地图表示,对象SLAM系统和基于神经网络的SLAM等设计方案,能够有效解决图像语义融合的视觉同步定位和建图。
I.研究背景介绍
现如今,自主机器人可以在没有人为干预的情况下,独立操作完成特定的任务。作为自主机器人的一个主要的属性--自主运动,主要取决于自我运动估计和高层次的环境感知。但是,在某些情况下,人工地标是不可知的,或者机器人处于GPS缺失的环境中,这样自我运动估计或获取场景信息就遭遇很大的困难。名词“SLAM”解释为同步定位和建图(有Smith和Cheeseman在1986年提出),被认为是一个基本工具,解决移动机器人在未知环境中的未知位置进行自我定位。技术上,移动机器人渐近的构建一个环境的全局一致地图,于此同时借助此地图实现自我定位。从数学角度来看,SLAM过程能够被抽象为一个并发估计问题,主要涵盖了机器人在可获得地标下的姿态估计和位置估计。很长时间以来,SLAM问题基本上是通过一系列距离传感器来解决的,比如光线检测和测距,红外辐射,或声纳导航和测距,这些适用于小范围静态环境中(各种距离传感器受限于他们独自的物理属性)。但是,在动态、复杂和大范围环境下,基于距离传感器的SLAM可能面对很多挑战。
SLAM问题的示意图如图1所示。
通过外部相机(作为外部传感器)方法的SLAM被称为视觉SLAM(V-SLAM)。相比于传统SLAM技术框架,V-SLAM的重大优势是,它对于实际应用场景的适用性,因为V-SLAM可获得更丰富的图像纹理结构和更简单的传感器配置。此外,伴随计算机视觉(CV)技术的发展和成熟,使得V-SLAM可获得图形和视觉的支持。意识到基于CV的方法已经解决了许多主要的V-SLAM领域中的问题,例如:图像特征检测、描述和匹配,回环检测和3D地图构建等等。目前,利用许多开源算法,V-SLAM系统的架构已经完全建立。但是,我们必须承认,在机器人移动或者具有挑战性环境下(比如,快速的机器人动力学,快速变换的环境,严重的光亮变化,严格的可见度限制或复杂的缺失纹理场景),V-SLAM技术还是不够健壮。Cadena等人,首先将SLAM时间线分为3个时期,并进一步总结了不同时期的成果。技术上,Cadena他们陈述,如果我们已经来到的SLAM的第三阶段,即为一个鲁棒感知的阶段:鲁棒性性能的实现,高层次的理解,资源感知和任务驱动的感知表示。SLAM相关的研究者,已经致力于研究方法,解决高层次的场景感知和理解。他们的工作主要定位于语义理解,因为它在提升鲁棒性,直观可视化和高效的人机交互方面有着优势。与基于语义的鲁棒性/准确性提升或语义构图相关的研究,都被称为语义SLAM。由于V-SLAM能够在一个联合的公式下实现定位和建图,自然的,上述的语义SLAM的两个过程也同样能够在一个估计器下同步解决。
SLAM时间线如图2所示。
表1列出了从2006年至今的SLAM技术方面的主要研究调查。
本调查的其余部分如下:
- 陈述了对于语义提取器的详细描述,现代V-SLAM系统的基础架构以及主流的开源算法。
- 然后,特别关注于语义SLAM的许多独特属性----感知力、鲁棒性和准确性,并分别与人机环境交互,环境适应和可靠的导航有关相结合分析,这些问题将在第三、四、五章节详述。
- 关注语义SLAM目前面临挑战,尝试寻求这些问题的答案。
- 给出语义SLAM相关内容的总结。
II. 语义SLAM系统的组件
A.语义提取器
对象检测被认为是CV的一个重要的分支,CV的发展可以初略的分为人工特征机器学习阶段(2001-2013)和学习特征深度学习阶段(2013至今)。区域卷积神经网络(R-CNN)系列属于典型的2-阶段网络,包括R-CNN,fast R-CNN,faster R-CNN,以及最新的mask R-CNN。值得注意的是,最新类型的对象检测算法实现同步完成目标定位和分类任务,而不是首先进行对象的2D定位。具有代表性的Yolo系列算法(已知的最快的语义提取器)采用S×S的网格替代区域建议,并且这些网格的分类类别作为最终检测结果的理想候选结果。一般而言,Yolo系列的检测速度满足一般的实时语义SLAM系统,但是为了更高的准确度,最新的Centernet提供了一个新颖的基于特征点的方法。
为了清晰的描述对象检测网络的发展,按照时间顺序的总览如图3所示。
语义分割,在涉及极其复杂的场景情况下,需要一些特殊的关注,并且为了确保鲁棒定位和建图,更好的场景图例,也就是大量对象之间的深度关联挖掘需要进一步考虑。相对比,对象检测适用于粗粒度的场景推理,而语义分割更为普遍,因为它适用于精细的场景处理。类似的,语义分割的发展经历了从“机器学习为基础”到“深度学习为基础”的转变。如今,CNN的引入已经极大的提升了对象分割的精度和效率;因此,对于构建语义SLAM系统的情况,通常首选基于CNN的解决方案。考虑到语义SLAM系统中语义分割的实际应用,需要研究和网络相关的两件事(为了进行语义分割)。一件是采用技术指标(包括准确性和有效性),另一件是应用条件(表明一个网络是否适用于视频分割或者3D图像分割)。这一段主要是描述基于深度学习的语义分割网络,大多遵从上述的思路。
对不同CNN网络进行语义分割的性能对比如表2所示。
B.现代V-SLAM系统
考虑到传感器数据和任务级别的流向,一个V-SLAM系统一般包含两个部分:前端和后端。如图所示,视觉里程计和回环检测模块同时接收某些传感器所提供的输入。这里,视觉里程计的功能是提供预先的机器人位姿估计,回环检测模块的功能是提供场景相似度。获得到的机器人位姿或场景相似度信息,作为后续机器人全局优化位姿和地标,以及绘制移动轨迹和环境地图的源信息。数学上,前端任务和后端任务可以被分别抽象为“数据关联”问题和“状态估计”问题。
V-SLAM系统示意如图4所示。
前端:数据关联
前端模块在同一图片序列中的不同帧,追踪相同特征(特征点或代表性像素块)的过程被称为“数据关联”。一般而言,早起V-SLAM系统通过特征匹配来处理“数据关联”。显然,对于局部图像特征的描述信息缺失,在很大概率下会导致错误的数据关联,这也就会导致错误的位姿和地标估计。一些关注于减少数据关联中错误的研究(例如:随机样本共识 RANSAC)被提出,但是尚未真正解决问题仍令其不满意。之后的研究者开始在概率论角度解决“数据关联”(也就是, 做出将新特征分配给跟踪序列的软性决定)。关于数据关联在SLAM问题中的表达,Bowman等人是\(D\triangleq Z\{l_k,x_k\}_{k=1}^K\)表达的支持者,这就表明\(Z_k\)(下标\(k\)表示\(k\)th)是独立于\(x_k\)(相机姿态)和\(l_k\)(地标位置)。之后就采用最大估计概率(MLE)来解决\(D\)。
概率数据关联充分考虑了特征分配中的不确定性,并最大程度上减少了错误关联,具体如图5所示。
后端:状态估计
Lu等人和Gutmann等人将SLAM问题定义为一共最大后验估计问题,目标是从一组观测(\(Z=\{z_1,\cdots,z_k\}\)带有噪声)中估计一个变量\(X\)(包括机器人姿态和地标位置)。
\(X^*= \underset {X}{\operatorname {arg\,max}} P(Z|X)P(X)\) (1)
等式(1)遵循贝叶斯定理。\(P(Z|X)\)表示状态\(Z\)(给定变量\(X\))的可能性,\(P(X)\)表示变量\(X\)的先验概率,所以后验概率表示为\(P(Z|X)P(X)\)。这个问题一般化为确定一个分配变量\(X^*\),使得\(P(X|Z)\)最小,并进一步确定变量\(X\)。SLAM问题最为重要的答案之一是由Davison等人提出的,他们首先使用扩展卡尔曼滤波器(EKF)进行更新相机和地表点的状态信息。与之不同的是,基于集束优化的非线性优化方法,通过将具有约束变量的全局约束方程进行优化,而不是纯粹的迭代求解EKF,来求解最大后验概率估计问题。相比而言,基于EKF的SLAM方法在处理小范围场景应用的情况下比基于优化方案的SLAM方法具有更高的效率;但是,对于大范围场景应用下,基于过滤的SLAM方法由于需要计算较大的协方差矩阵而造成性能表现欠佳。
开源V-SLAM系统。一般的,V-SLAM系统可以通过相机类型进行分类,包括但不仅限于:单目,双目和RGB-D相机。作为详细的比较,作者坚信,对于一个V-SLAM框架评价的关键点,包括,是否能够稠密建图和回环检测,是否支持大量传感器,是否具备实时处理的性能。重要的是,为了简化目前语义SLAM的设计,许多研究之间参考了完善的V-SLAM框架。
表3进一步总结了它们的特性,包括前端,后端,重定位,回环检测等等相关描述。
III.人机环境交互:感知
我们认为在语义SLAM领域中的感知定义应该包含两个方面:对环境的理解和对人的理解。毫无疑问,一个环境模型(也被定义为环境地图)将会在这两个过程中发挥重要作用。
表4主要总结了一些语义地图的研究。
语义地图
语义地图在一个宽广的场景下可分类为对象级别和像素级别。以前的研究建立了对象级别的语义地图的原始概念,即将提前建立好的已知对象的3D模型插入到无意义的稀疏点云地图中。很不一样的是,一些研究尝试通过一些传统的工具构造优越的像素级语义地图,比如:SVM(即使SVM一般被用在解决工业中的预测,分类和诊断问题),CRF,并且至今,因为这些工具被认为在对象识别和场景分割方面具有重要作用。但是,大部分情况下,这些有限制的工具不能满足分类的准确性要求。受到深度学习的启发,出现越来越多的基于CNN的对象识别、检测和分割的研究。因此,这些大量的成就为构建更多的像素级语义地图提供了保证。Li和Delaroussi提出了一个方法,即融合目前最先进语义分割的策略(即DeepLab-v2)和V-SLAM框架(大型直接单目,LSD-SLAM)。它的成功在于,通过一个多视单目相机构建一个半稠密的3D语义地图(区别于Mccmac等人的使用RGB-D相机构建的稠密3D语义地图)。值得注意的是,这个融合方案反过来,对于更大范围的2D单视角的语义分割方法有很大的性能提升。明显的,SLAM从本质上提高了语义分割的准确性。
2. 公开问题
时变语义地图。语义地图为高级语义理解打下基础,但是远不能达到满足长期鲁棒定位的使用。一个理想的解决方法,是构建一个时变语义地图,因为一个模型对于所关注场景下的对象的时空关系不能被建立,和后续对象的空间变化(即运动)不能被预测这一事实。因此,我们相信,通过引入时变语义地图有助于长期动态定位。我们也相信,考虑到时空关系的原因,这些时变语义地图的基础就是一些人工智能的方法。据我们所知,目前语义SLAM很少涉及这方面的研究。
全景语义地图。据上述讨论,基于CNN的语义分割会得到更细粒度的结果。即使看起来足够精细,但是对于某些特定目的,分割区域不是很小的情况下(例如,不同类型的车辆不能被识别),某种程度上限制了对于场景感知的理解。在SLAM领域中的实例分割网络的一个重要的贡献在于,它在同类别的对象中进一步细分实例;尽管如此,这一方法不能适用于不规则的背景下。
全景分割全部包括这两个分割的优势,作为CV领域的一个新的方向,它被认为以较好的方式生成一个带有全局已知标签的细粒度结果。因此,全景语义地图,被认为是研制智能自主机器人和研究增强显示背景知识有力而重要的工具。全景融合是全景语义3D重建的首要研究,但是,它不利地忽略了对于基于语义的定位思想的研究。由于语义定位在实际应用中常被忽略的事实,我们坚信,同步关注定位和建图的语义SLAM框架仍然值得被研究。
Ⅳ.环境适应:鲁棒性
如上所述,V-SLAM如今处于鲁棒感知的阶段。某种程度上,一个重要的语义SLAM关注是“鲁棒性”提高。在特征选择机制方面和优化数据关联方面,我们将着重关注鲁棒性这一问题。在详细回顾之前,我们首先总结一下鲁棒性提高的相关性研究。
表5总结鲁棒性相关研究。
特征选择机制
对于特征点的先验语义获取会导致视觉里程计鲁棒性的提高。因为我们初始就评估过这些特征点是否适合特定的任务,因此所选择的鲁棒性特征会促进更好的机器人自我运动追踪。更有趣的是,特征选择策略可以针对特定变化任务的要求,进行对应的更改。我们将在接下来的内容回顾最近的研究:
- 兴趣区域特征选取。Liang等人提出一个视觉里程计框架,在视觉显著地图(由单张图像上每个像素点的视觉显著性所定义,越接近红色,视觉显著性越高)上进行特征选取,由语义分割结果进行过滤。
- 内容丰富区域特征选取。使用从低信息熵区域提取的特征点,其位姿估计的准确度较低。同时,对于这些特征进行追踪,会导致数据关联的错误率提高。Ganti和Waslander提出一个基于信息理论的特征选取方法,通过将语义分割的不确定性概念来计算信息交叉熵。这一方法导致特征数量骤减,因此显著提高了系统的实时性能和鲁棒性表现,同时获得客观的准确性。
- 动态特征选取。所提取的特征点(来自于图像)属于移动对象(所谓的动态特征点),大大的降低了V-SLAM系统的鲁棒性。幸运的是,高级语义能够有效地对静态和动态特征点进行划分(所谓的动态划分),以至于那些在动态场景中使用正机制的V-SLAM系统获得很高的鲁棒性。
优化数据关联
在V-SLAM框架,考虑到更新频率,数据关联可以被分为两类:短期关联(e.g.,特征匹配)和长期关联(e.g.,回环检测)。这样的机制将最大化数据关联的可靠性。但是,在回环检测失败的情况下(e.g.,无人车长期行驶在直行道上),视觉里程计会不可逆的漂移,从而导致导航系统的失效。一项语义SLAM的研究,表明图像语义基于中期关联机制。从实验角度,这项机制极大减小了视觉里程计在无人驾驶场景下的平移漂移。有几个问题限制了这种基于图像语义机制的推广。Bowman等人发现在应用中,这样的语义关联有一个缺陷,就是对象语义的不合理数据关联极大影响了定位和建图的结果。因此,他们提出了一个所谓的概率数据关联机制,在处理数据关联的过程充分考虑不确定性。
公开问题
主流的语义SLAM方法,通过选择特征或优化数据关联来提高视觉里程计的鲁棒性。但是,算法规模的提高,通过纯粹的特征选取或数据关联优化不能满足视觉里程计的鲁棒性提高。近来,基于CNN的特征提取器在CV领域得到关注,并且它们可以获得更多手工特征设计方案中获取不到的鲁棒视觉特征。受此启发,在SLAM领域的研究者如今尝试通过这样的学习特征进行重建视觉里程计,从而最终实现提高视觉里程计的鲁棒性。遵循这样的想法,我们相信,以后会不断追求提高特征的稳定性和泛化性,因为这些属性有助于提高视觉里程计的鲁棒性。
Ⅴ.可靠导航:准确性
定位和建图的准确性,可以衡量一个自主导航系统的可靠性。一般而言,如果需要提高准确性,语义几乎可以被包含在传统SLAM算法框架的所有阶段,例如:初始化,后端优化,重定位,回环检测等等。在后面章节陈述详细的讨论之前,我们要首先总结语义SLAM相关的研究。
这些研究致力于系统准确性的提高,如表6所示。
单目尺度初始化
由于图像之间没有绝对的基准,单目V-SLAM系统的尺度不可避免地随着时间出现模糊和漂移。因此,在开发单目V-SLAM系统初始化中地一个关键问题是,如何矫正尺度模糊和漂移。这些问题研究中相同重点是,它们都引入了图像语义地概念。作为图像语义地一种形式,对象的大小被完全考虑在内,并且单目尺度初始化过程被认为更加简洁有效。在公开数据集上地实验结果验证了这些方法在大量应用上的有效性,包括从小范围地室内场景到大范围地室外场景。
语义和几何联合优化
最紧密地语义和几何联合优化框架之一被Bowman等人提出,他们首先提出了概率数据关联地方法。如果连续和离散数据都涉及到数据关联任务中,直接使用一个MLE(最大概率估计)方法不能解决问题。因此,作者巧妙地将主要问题分解为多个子问题,就是,他们将所谓的混合关联分为两个步骤:离散语义关联和连续姿态估计。这个两部联合迭代计算问题,能够被经典地期望最大算法简单地解决。此外,被对象检测所提取出的语义最重要的点是,它在后端优化中发挥重要作用。
Linaos等人提出了一个合并SLAM后端中的语义信息(通过语义分割提取出)。事实是,2D对象边界不能准确地表达出所匹配地3D对象地边界,Linaos的方法被认为在实际应用更加有效。最新的研究将2D对象检测运用到推理3D对象的边界边框。从工程角度,这个方法能够适用于准确度要求较低但是具有实时要求的语义SLAM系统中。
重定位和回环检测
重定位和回环检测检测采用相同的技术,但是,它们却是解决不同的问题。重定位的目标是恢复相机姿态,但是回环检测的功能则是获得几何一致地图。不考虑单个技术功能的差异性,我们更加关注这些技术的相同点。因此,这一小段主要是描述基于语义的重定位算法,大多遵循面向运用的思路。
几何定位的主要限制在于,对于预先构建好的地图,长期定位具有难度场景的能力。但是,基于语义的方法是这个具有挑战性问题的答案。从近来的研究中可见,一项基于语义的交叉推理定位算法被提出。原则上,几何定位算法依赖于图像形状之间的相似性,并且这明显受限于研究者,即使图像从相同位置采集,季节的变化足以使所关注的图像表现得不一致,以至于匹配关系变得不可靠。在这种情况下,语义肯定会让人联想到,跨季节本地化研究的重要贡献之一是,单个图像中语义对象的拓扑随着时间的推移将保持一致。这个跨季节定位方法被应用在无人驾驶中,可以表现出足够的可靠性。一个新颖的基于图的语义重定位方法被Gawel提出,在这样的系统中,带有语义的关键帧被转化为一组3D图,并且这些3D图被用来在预先构建好的环境地图中进行匹配。处理季节变化,引入的语义信息同样解决更大的视点变化或照明变化,甚至部分由于时间引起的场景结构变化。重定位和回环检测方案所产生的准确性提升验证,作为V-SLAM系统的一个附加功能。
公开问题
部分语义SLAM研究者关注基于深度学习方案的流程设计,从而可以搭建一个可训练的端到端的SLAM系统。近年来,已经有尝试使用CNNs的方法来估计一张图像的深度信息。即使可行性得到了验证,限制CNN泛化能力所带来的困难仍然是一个固有的不适定问题。一些研究者做出一些努力,即采用一些端到端的方案,在一对图像中联合估计位姿信息和相机的移动。此外,Wang和Clark提供一个可替代的方案,就是直接从视频中推理姿态和不确定性。从他们的实验中可知,他们已经采用层级式网络设计,伴随认真的参数配置和充足的训练,这样能够在给定数据集上得到当前最优的准确性。与此同时,反对者仍在争论管线形SLAM在实际应用中的不良性能;他们在强调“可解释性”和“泛化性能”的问题。对于此,研究者目前致力于深度学习建模方法,为了更好的解释下和多维度可视化。
Ⅵ.讨论
在上述章节,主要涉及到语义SLAM的感知、鲁棒性和准确性问题。此外,用于提升SLAM性能的技术工具中,一些对应的公开问题被提出。这项调查的主要关注之一,就是从宏观角度提出了这个公开问题的解决方法。因此,这个章节主要是宏观角度的讨论。主要涉及多尺度地图表达,对象SLAM和弱监督、无监督学习SLAM。
多尺度地图表达
我们相信,时标地图有助于机器人的长期自主定位。近几年来,V-SLAM的倡导者忽略了他们研究者存在的问题。例如,图像序列的时空上下文信息已经被地图表达所考虑,这也就不可能重构所希望的时间变化语义地图。近来,关于RNN的研究,已经表现出构造图像序列中时空上下文的帮助。从我们的观点,RNN可被用来处理V-SLAM的建图任务,建图需要长期的强自主的定位能力。
伴随着时变地图(在某个时间段中包含整体的环境信息),全景语义地图构成了可被用来进行多尺度表达的主要形式。如果要求使用一个V-SLAM框架来构造一个全景语义地图,那么就要在全局角度分割一个全景语义地图。作为CV领域的难点之一,多项方法被提出用来解决,在像素级别上进行分割前景对象,但是前景和背景的统一标定问题仍然存在。所提出的全景语义分割是这类问题的一种解决方案。它通过融合从语义分割和实例分割所获得的信息,产生一个全局一致的标定,这是对于之前获取到结果信息的更好的理解。据上述分析,在语言SLAM领域,我们坚信多尺度地图的发展前景可观,在高级别人机环境交互和长期自治位置方面具有相同的一般特征。
对象SLAM
从我们的角度来看,DNNs作为一个新颖的方法,对于提升视觉里程计的鲁棒性却不具备实用性。许多情况下,由于忽视特征点的鲁棒性,过度训练的DNN方案不但会产生过多的时间损耗,而且在全新场景下的某些SLAM任务中也无法使用。通过建立起对于3D场景下单个对象的单独跟踪,它使2D到3D以及单线程到多线程的高效特征选择和数据关联得以实现,从而切实提高了VO的鲁棒性和准确性。
一个可靠的对象SLAM框架如图6所示。
SLAM++提出最早对于对象SLAM领域的研究。基于对象数据集应该首先被建立的事实,SLAM++仍不适用于在线任务。最近,关于SLAM++的研究可分为两个方向:一个是CubeSLAM提出的通过立方体描述对象,另一个是QuadricSLAM提出的用椭圆体描述对象。我们详细对象SLAM有着广阔的研究前景,并且它的观点是在3D场景下,整个过程直接追踪动态目标。伴随CV领域中3D对象追踪(包括3D语义估测器)的快速发展,有理由相信它对于创建一个更加高效对象SLAM系统有所帮助。
弱监督和无监督学习SLAM
伴随数据集的出现,端到端的语义SLAM框架一般会带来最佳定位精度,但是其可解释性和泛化性受限于它的广泛的应用范围。以DNN为例,泛化能力的减弱同时伴随着过拟合,这是由于过于细致的参数配置和训练过程。因而,基于弱监督或无监督的学习框架被提出,应用来提高DNNs的泛化能力。但是,该项研究仍处于初期阶段。事实上,在端到端的SLAM领域,基于无监督的单目深度估计器已经被认为是一个主要研究方向;与此同时,机器学习专家的兴趣现在集中在DNN的可解释性上。这些线索令我们相信,高级的学习策略将是语义SLAM框架的强大而有力的工具。重要的是,可以将语义SLAM管道轻松集成到深度强化学习范例中,以构建具有一般智能的机器人系统。
Ⅶ.总结
对于自主机器人的导航任务,一个致力于更好理解和感知机器人工作中信息的SLAM系统,已经引起了越来越多的关注。这项总结中,我们回顾了语义SLAM在感知,鲁棒性和准确性方面的发展,然后讨论了与最新进展和挑战相关的开放问题。具体而言,我们尝试从宏观的角度寻求对这些公开问题的可能解决方案,并以建设性方式进一步提出建议。我们相信通过实际应用可以证明SLAM框架的完善性,语义SLAM将通过图像语义的显着融合来区分自己。基于深度学习的方法的发展显然为研究人员提供了利用其强大的图像处理能力来估计姿势,检测环路闭合,构建3D地图等的机会。 从我们的角度来看,深度学习和语义SLAM现在已经密不可分,并且在未来的研究中必将它们融合在一起。