论文阅读笔记-Automatic Construction of Lane-level HD Maps for Urban Scenes
Automatic Construction of Lane-level HD Maps for Urban Scenes
自动构造城市场景的车道级高清地图
Abstract
高清 (HD) 地图已经证明了它们在实现完全自治方面的重要作用,尤其是在复杂的城市场景中。作为高清地图的关键层,车道级地图特别有用:它们包含车道和交叉路口的几何和拓扑信息。然而,高清地图的大规模构建受限于繁琐的人工标注和高昂的维护成本,尤其是对于道路结构复杂、标线不规则的城市场景。本文提出了一种基于语义粒子滤波的方法来解决城市场景中的自动车道级映射问题。地图骨架首先构造为来自在线地图数据库 Open Street Map 的有向循环图。然后,我们提出的方法对来自自我车辆的 2D 前视图图像执行语义分割,并在具有真实地形投影的鸟瞰域上探索车道语义。利用开放街道地图,我们进一步推断具有上述车道语义的交叉路口的车道拓扑和参考轨迹。所提出的算法已经在密集的城市化地区进行了测试,结果证明了车道级高清地图的准确和鲁棒的重建。
I. INTRODUCTION
高清 (HD) 地图已成为在各种复杂场景中实现完全自主的关键组成部分。用准确和全面的静态环境信息进行编码,高清地图可以显着促进感知、定位、预测和规划。高清地图包含多层信息抽象,车道级信息在许多应用中起着典型的作用。车道层嵌入车道几何、道路语义和连接拓扑,可用于为自动驾驶中的一些关键模块定义潜在感兴趣区域 (ROI),包括但不限于目标检测,调节横向位置自我车辆的,以及预测其他车辆的行为。
然而,这些车道级高清地图具有众多诱人的应用程序,并不能轻松扩展。由于手动标记和维护成本高昂,许多这些高清地图仅限于小规模环境。最近,已经推出了一些商业产品来自动映射高速公路,其中车道结构清晰,标记清晰。然而,在城市场景中,道路要复杂得多。如图 1 第一列和第三列所示,城市道路可能有复杂的分叉、坑洼、破损的标线,甚至根本没有标线。此外,城市道路还存在停车区、公共汽车路边和自行车道等违规行为。此外,在复杂的交叉路口,城市车道的拓扑关系更加复杂。因此,城市地区的自动车道级映射仍然是一个开放且具有挑战性的问题。
值得注意的是,车道级高清地图构建问题不同于车道检测或轨迹推断等几何任务。高清地图需要超越实例级别的语义和拓扑理解,这意味着地图应该包含与几何信息的逻辑连接。与简单的车道边界回归相比,高清地图构造器进一步推断车道之间的合并/分叉关系;与轨迹推断相比,高清地图进一步解决了车道拓扑关系。
以前的工作将车道检测和交叉路口轨迹生成视为单独的问题,并且这些工作大多只针对场景的几何理解。在这项工作中,我们共同研究车道和交叉口,并提供超越简单几何表示的拓扑理解。
在本文中,我们首先将高清地图表示定义为有向循环图(DAG),以便于数据存储和查询。然后,我们提出了一种基于语义粒子过滤器的方法,使用前视摄像头和可选的 LIDAR 传感器自动生成城市车道级高清地图。所提出的方法包含三个主要组件:用于场景理解的语义分割网络、鸟瞰图 (BEV) 上的顺序蒙特卡洛车道跟踪模块,以及带有开放街道地图 (OSM) 的交叉口推理模块。整个管道只需要对每个道路方向执行一次即可完整重建车道级细节,包括车道边界、参考轨迹、车道分割信息和道路拓扑。最后,我们以下游模块的可微格式表示我们生成的车道图。我们从 Urban Loco 数据集在旧金山和伯克利市中心等密集城市化地区测试了所提出的方法,一些示例映射结果如图 1 所示。该实验涵盖了车道合并/拆分、丢失/损坏的区域车道标记、复杂的十字路口和不规则的道路形状,例如公共汽车路边和停车场。结果证明了车道级高清地图的准确和稳健的构建。
II. RELATED WORKS
随着近几年地图相关研究的推进,对自动车道级地图构建进行了多次尝试。我们将首先介绍车道和十字路口的几何推理工作。稍后,我们将介绍有助于构建高精地图的拓扑理解方法。
A. Lane detection: markings
由于车道是由涂在路面上的标记定义的,因此从车道标记检测的角度开始构建车道级地图的自然方式。涅托等人。使用步进 - 行过滤器 [10] 进行车道标记检测,并应用 Rao - Blackwellized 粒子过滤器进行车道跟踪 [11]。在[12]中,李等人。使用卷积神经网络和循环神经网络进行高速公路车道标记检测。最近,加内特等人。 [13]和郭等人。 [14] 进一步使用 3D-LaneNet 框架不仅可以对图像中的车道进行分类,还可以预测其在 3D 中的位置。
这些方法在高速公路或郊区道路上实现了高质量的标记检测,其中道路的形状很简单,可以通过类似多项式的函数来近似。然而,上述方法难以应用于道路结构复杂、车道标线破损/缺失、道路分裂频繁的城市场景。此外,[13] 和 [14] 中提到的方法仅适用于 3D 坡度变化较小的场景,而忽略了道路地形的突然变化。
B. Lane detection: drivable areas
其他一些方法侧重于车道检测的可行驶区域。迈耶等人。设计了一个用于自我和相邻车道检测的神经网络[15]。昆泽等人。从语义分割创建了一个场景图,以生成可驾驶区域和所有道路标志的详细场景表示 [16]。另一方面,罗迪克等人。使用金字塔投影网络来提取可驾驶区域以及其他车辆[17]。这些方法都没有扩展到高清地图领域,允许第三辆车充分利用检测结果。
C. Intersection lane inference
了解路口结构是自动驾驶和高精地图生成必不可少的技术。因此,已经进行了许多研究来提取交叉路口的隐形车道和连接拓扑。
其他车辆的轨迹通常用于交叉路口探索。例如,在 [18] [19] 中,作者使用从车载传感器(如立体相机或 LIDAR)获取的车辆轨迹。后来,迈耶等人。使用模拟车辆轨迹并采用马尔可夫链蒙特卡罗采样来重建真实和模拟交叉路口的车道拓扑和几何形状[20],[21]。在 [22]、[23] 中,作者使用了收集到的装载在车队车辆上的 GPS 数据。这些方法具有估计交叉口车道级结构的潜力,但它们需要大量数据,并且性能在很大程度上依赖于车辆轨迹的质量,而车辆轨迹的质量本身并不容易获得。
最近,从摄像头图像直接预测交叉路口的道路连接成为车道推断的另一个流行方向。 Nvidia [24] 的工作将推理问题表述为分类,并从具有交叉熵损失的真实轨迹池中选择最佳轨迹。和帕兹等人。 [25] 在 BEV 语义图上预测来自门控循环单元的轨迹。然而,这两种方法都只关注自我车辆的车道,并且只预测一个轨迹作为自我车辆的参考,而不考虑交叉路口的所有可见车道。
D. HD map generation
长期以来,大规模地图生成一直被认为是同时定位和映射(SLAM)问题[26]。然而,常见的 SLAM 算法更多地关注里程估计,而不是语义。最近,在 [6] 和 [27] 中,作者使用图像域中的语义并将语义结果与 LIDAR 融合以生成场景的语义表示,而不是精确的高清地图。在车道级地图生成方面,一种常见的方法是沿着定位结果[28]、[29]累积提取的道路环境。上述两种方法都使用 LIDAR 来提取道路环境,并使用 OSM 作为先验地图。在[29]中,车道的分叉和合并能够通过基于粒子滤波器的车道标记跟踪来识别。 Homayoudar 等人。另一方面,使用有向无环图(DAG)并将每个检测到的车道标记视为一个节点来决定未来的连接、启动或终止动作[30]。然而,这些方法侧重于忽略交叉路口的路段,并且它们没有定义车道的起点和终点。因此,这些作品没有研究车道之间的连接。在航拍图像的帮助下,[31] 的作者研究了路段和十字路口。然而,该方法受到航拍图像的可用性和分辨率的限制。
虽然上述在车道检测和地图生成方面的努力对社区有重大贡献,但它们仅限于简单的道路结构或单一的路段。我们的工作专门针对复杂的城市驾驶场景,并考虑车道段和交叉口推断。此外,我们考虑了路面的地形变形,以实现更稳健和准确的车道检测。
III. PRIMITIVE: MAP HIERARCHY 原语:地图层次结构
对于这个制图任务,我们从拓扑的角度出发。城市道路网络由单独的路段和连接的十字路口组成。如图 2-a 所示,城市车道级高清地图 \(M\) 可以进一步抽象为有向循环图表示,每条边 \(E _{ij}\) 表示从交叉口节点 \(I _i\) 到另一个交叉口节点 \(I _j\) 的定向道路。由于城市场景中单向道路和物理上分开的双向道路的普遍存在,我们特意为每个方向选择了一条边(如图 1.a 所示)。以前的工作集中在边缘 \(E _{ij}\) 或节点 \(I _i\) 用于几何信息提取,但我们研究了包含道路和交叉口的高清地图 \(M\):$$M := \lbrace E_{i·}, I_i\rbrace \tag1$$
为了获得这样一个高级地图骨架,我们从 OSM [8] 中提取粗略的道路级拓扑信息。忽略大多数道路的行进方向,OSM 将道路定义为在道路实例下连接在一起的一系列节点。对于以实心障碍物为中间带的特殊双向道路,OSM 将每个方向都有一个道路实例。此外,OSM 将交叉口定义为两个或多个道路实例的连接节点。尽管由单个节点表示,但实际的交叉点是多条道路/车道相交的几何区域。利用这样的定义,我们预测交叉路口的 ROI(如图 2-b 所示)与由最接近交叉路口节点的道路节点形成的多边形,将其余道路节点作为原子道路的一部分。
将原子道路 \(E ^0 _{ij}\) 和交叉路口补丁 \(I ^0 _i\) 定义为我们地图的骨架 \(M ^0\),我们能够将移动数据收集车辆与道路网络中的原子道路或交叉路口进行匹配。与目标变量 \(M\)、\(E _{ij}\) 和 \(I_i\) 不同,\(M^0\)、\(E ^0 _{ij}\) 和 \(I ^0 _i\) 既不包含车道的几何信息也不包含拓扑信息。现在我们继续提出的自动地图生成方法。
IV. METHOD
A. Problem formulation 问题表述
为了从上述地图骨架 \(M^0\) 自动生成车道级地图,我们提出的方法在时间 \(t\) 使用车载前视摄像头 \(C_t\) 和可选的(由 * 表示)LIDAR \(L^*_t\)。我们还要求同步车辆在全局坐标中的姿态 \(RT_t\) 来自外部传感器或 \(SLAM\) 算法。将我们的框架表示为函数 \(F(·)\),等式 1 中显示的目标图可以进一步描述为:$$M := \lbrace E _{i·}, I _i \rbrace = F(C _t , L^* _t , RT _t , M ^0) \tag2$$
原子道路 \(E _{ij}\) 估计的目标是推断车道 \(k\) 的中心线 \(\{L_k\}_K\) 及其左右边界 \(\{B _{k,left} , B _{k,right} \} _K\),其中 K 是这条原子道路的车道数。由于车道可行驶区域的不规则性,我们故意超出车道宽度作为车道边界的不对称表示(示例在图 1 B 和 C 中)。在这里,\(L _k\) 可以表示为连续轨迹函数和路点集合,而离散点 \(B _{k,left},B _{k,right}\) 将形成车道的封闭可行驶区域。如图 3 所示,我们将从相机图像的语义分割 \((S(C _t))\) 开始,然后使用粒子在 BEV 域上探索车道,该车道由 \(S(C _t)\)、\(L^*_t\)、和 \(RT_t\) 。更具体地说,我们正在寻找:$$ E _{ij} = \lbrace L _k, B _{k,left},B _{k,right} \rbrace _K = G _1(S(C _t ), L^* _t , RT_t ) \tag3$$
交叉口 \(I _i\) 估计的目标是将 \(E _{·i}\) 和 \(E _{i·}\) 之间的拓扑关系和几何参考轨迹推断为贝塞尔曲线 \(\mathbf{B}(E ^k _{·i}, E ^l _{i·})\),其中 \(k\) 和 \(l\) 表示原子道路中的特定车道。当两个车道没有拓扑连接时,函数输出设置为空。在这里,我们利用先前定义的 \(E _{ij}\) 和骨架图 \(M ^0\) 中的结果在交叉路口进行车道跟踪。我们再次研究: $$I _i = \lbrace \mathbf{B}(E ^k _{·i}, E ^l _{i·}) \rbrace _{K×L} = G _2(E _{i·}, M ^0) \tag4$$
作为以下各节的大纲,函数 \(S(.)\) 在第 IV - B 节中介绍,函数 \(G1(.)\) 在第 IV - C 节中介绍,函数 \(G2(.)\) 在第 IV - D 节中介绍。
在相应的映射中如图 3 底部所示,我们从一个粗略的地图骨架 \(M ^0\) 开始,经过道路语义 \(E _{ij}\) 和参考轨迹 \(I _i\) 生成,最后以车道级高清地图 \(M\) 结束。
B. Semantic understanding of the scene 场景的语义理解
可行驶区域和车道是由路面上绘制的道路标线来定义的,而市区的车道标线则更为复杂:车道分割多、停车线频繁、标线损坏/丢失。
因此,我们不只是从相机图像中提取车道标记,而是将此问题视为语义分割,并从相机图像中推断出可驾驶区域和车道标记。基于 DeepLab-v3+ [32] 结构,我们对自我车道、自我车道两侧的 2 条相邻车道、虚线、实线、人行横道、道路路缘和停车线特别感兴趣。如图 4 所示,网络的输入是图像 \(C _t\),我们预测了上述 10 个类别。这些语义实例构成了我们理解当前场景的基础。考虑车道和车道标记对于城市场景特别有效,因为车道标记可能会丢失,并且一些可驾驶区域可能会与停车区混淆。
C. BEV accumulation and atomic road structure estimation BEV积累和原子道路结构估计
从摄像机图像中提取道路语义后,将分割后的图像 \((S(C_t))\) 投影到地图坐标中的地平面上。然后将这些投影的 BEV 图像累积在一起,用于原子道路的语义表示。对于这个语义映射问题的范围,我们假设自我车辆 \(RT _t\) 的姿态是由辅助传感器(如 inertia-GPS 导航系统或 SLAM 算法如 [26])给出的。
对于 BEV 投影,以前的大多数工作都假设平坦地面作为道路模型。然而,这种估计在城市场景中被过度简化了。对于城市地区,起伏的路面很常见,要么是专门为排水而设计的,要么是由于缺乏维护而意外造成的。图 5 左图显示,通过简单地假设道路的平坦表面,BEV 投影可能会失真。我们建议选择性地使用同步激光雷达扫描 \(L^*_t\) 作为地面地形,然后将图像投影到地形网格上。为了从稀疏点云生成地面网格,我们通过 Delaunay 三角剖分处理同步的 LIDAR 点云,每个点作为网格上的一个顶点。在 LIDAR 校正之后,BEV 投影可以在图 5 右图中看到,其中扭曲的人行横道标记被校正。为了进一步证明使用真实地面地形的改进,我们在第 V-C 节中包括了使用/不使用 LIDAR 校正的地图质量的消融研究。
使用语义原子路线图作为 6-a 的背景,我们现在研究在这种情况下可能的车辆轨迹。为了解决复杂的、大多不规则的驾驶场景,我们建议使用蒙特卡洛探索策略:粒子滤波器。每个粒子代表具有三个状态参数的平均轿车尺寸的移动车辆:BEV 位置和偏航角:\(\mathcal{X} _{n,t} = [x, y, φ] ^T _{n,t}\) 。该探索策略的详细信息如算法 1 所示。自我车辆从具有 \(RT _0\) 的原子道路的一端开始,我们在 RT0 中生成一条垂直于行驶方向的 \(N\) 个粒子 \(\{\mathcal{X}_{n,t=0}\} _N\)。然后每个粒子 \(\mathcal{X}_{n,t}\) 沿着图 6-a 所示的原子车道图中的行驶方向前进。在这里,我们模拟汽车的实际驾驶,速度 \(v_m\) 和偏航率 \(\omega _m\) 从嘈杂的线性和角速度分布 \(V_m\),\(\Omega_m\) 中均匀采样。动态更新函数为
每个预测粒子 \(\overline{\mathcal{X _{n,t+1}}}\) 将根据其与车道边界的重叠率重新加权(图 6-b),并将权重保存为 \(w _{n,t+1}\)。粒子将在 \(I _j\) 处终止。通过顺序蒙特卡罗过程,我们可以模拟车道分割场景中的车辆行为。对于过于狭窄而无法容纳两条车道的非结构化道路,粒子滤波器还展示了车辆的首选行驶轨迹(图 1 B)。
对于行进到原子路 \(\{\mathcal{X} _{n,T}\}\) 末端的粒子,我们首先使用几何聚类算法 DBSCAN [33] 对这些粒子进行聚类,以确定最终的车道数。然后我们进行数值回归以找到这些车道的最佳表示。在试验了不同的回归模型后,我们得出结论,最佳拟合是使用自然样条平滑的优化分段线性回归。通过最小化方程 6 所示的平方和回归损失,我们首先确定分段回归函数 \(f (x_n, b_i)\) 的最佳断点 \(b_i\),然后使用自然样条平滑连接以获得可微分曲线表示。这种可微分形式的参考轨迹对于进一步的路径规划和预测任务特别有价值[5]。
对每个回归车道 \(L _k\) 采样路点,我们通过探测车道的纬度方向来估计车道宽度。结果,我们将在每个特定的采样位置获得准确的车道宽度 \(B _{k,left}\) , $B _{k,right}。我们一起形成了公式 3 中引入的原子路线图 \(E _{ij}\) ,参考轨迹 \(Lk\) 和车道边界 \(B _{k,left} , B _{k,right}\) 。值得注意的是,这种表示可以很容易地转换为 LaneLet2 [34] 格式以用于进一步的任务。
D. Intersection lane tracing 路口车道追踪
正如前面在公式 4 中介绍的,交叉口 \(I _i\) 内的道路连接拓扑和参考轨迹推断来自 OSM 骨架 \(M ^0\) 和相邻原子道路 \(E_{·i}\) 和 \(E_{i·}\)上生成的车道。由于 OSM 定义了道路连接拓扑,我们将这种关系转移到具有一般交通规则的车道级别:即 \(E_{·i}\) 中的左侧车道将连接到 \(E_{i·}\)中的左侧车道;该算法在算法 2 中进行了演示。在没有明确监督的情况下,拓扑推理在城市地区将达到 90% 以上的精度。基于拓扑,参考轨迹然后用方程 7 中所示的优化二阶贝塞尔曲线回归。我们优化方程 7 以获得变量 \(α ∈ [0, 1]\) 的平滑度。贝塞尔曲线的头尾对应车道的位置 \(L _{k1,-1}\) 和 \(L _{k2,0}\),如图 7 所示,我们使用从头尾节点沿方向延伸的线的交点作为曲线的控制点 P 。
V. EXPERIMENTS
A. Experimental Setup
为了验证所提出的方法,我们为旧金山湾区 47 个街区的 3.5 公里路线创建了车道级高清地图。数据来自带有前视摄像头、激光雷达和地面真实自我车辆姿态的公共地图数据集 [9]。为了评估原子道路和交叉口重建 IOU,我们在 Bing [35] 上手动标记可行驶区域,并且我们执行了全局校正 [36] 以进行对齐,因为地图和地面实况是在不同的坐标系中生成的。为了量化轨迹偏差,我们使用另一位驾驶员在不同日子穿过相同场景的轨迹。
对于语义理解模块,我们采用 DeepLab-v3+ [32]。我们使用 Cityscapes 数据集 [37] 对模块进行预训练,并使用 BDD100K 数据集 [38] 进行微调。由于 BDD100K 数据集仅定义了可行驶区域的 ego-lane 和 alter lanes,因此我们将此标签扩展到 ego-lane、左车道、左二车道、右车道和右二车道。我们使用 SDG 作为优化器,学习率为 0.01,动量为 0.9,批量为 4。微调完成 250,000 步。图像在语义分割过程中调整为 512 × 512,并在 BEV 投影中恢复为原始大小。
对于 BEV 积累,我们使用 [9] 中提供的地面实况定位。在粒子滤波探索中,我们部署了 500 个粒子,每个粒子长 3m,宽 1.5m。速度 (m/s) 从 \(U(0.9, 1.1)\) 均匀得出,偏航角 (radient) 从 \(U(-0.2, 0.2)\) 均匀得出。 DBSCAN 的最大集群距离设置为 1m,大约是城市场景中典型车道的一半。
B. Lane-level map in Berkeley and San Francisco
定性的原子道路映射结果如图 1 所示:所提出的方法可以成功地映射车道分割(A)、非结构化道路(B)和复杂的交叉口(D)。对于车道级高清地图的定量研究,学术界对地图质量评价没有达成共识。然而,我们使用之前工作中的所有流行指标来证明我们算法的有效性:参考轨迹和地面实况之间的均方根 (RMS) 误差、提议车道边界的联合平均交点 (mIOU) 指数、和精度 - 召回值。所有的评估都是在每个通道的基础上进行的。为了研究所提出方法的检测率,我们将成功检测定义为平均 IOU 超过 0.7 或 RMS 小于 0.2m。表 1 对所提出的方法进行了定量研究。
以 0.7 m IOU 或 0.2m RMS 测量,我们提出的方法在车道中心轨迹估计中的平均 RMS 为 24cm,在车道边界估计中的平均 IOU 为 0.79伯克利市中心。在相同的阈值下,我们能够达到 0.84 的准确率和 0.73 的召回率。在旧金山的北海滩,我们的方法在 0.7 IOU、0.63 精度和 0.63 召回率下测量时的 RMS 为 0.33m,mIOU 为 0.76。
据我们所知,类似领域的大多数先前努力都使用私有数据进行评估,我们无法在他们的数据集上测试我们提出的方法。更关键的是,大多数与映射相关的算法和参数都是封闭的,因此无法对我们的数据集进行重新评估。因此,表 1 列出了其他提出的方法 [29]、[27]、[6]、[31]、[15] 在类似矩阵中的性能。我们还列出了每个地点的城市化率,以便对这些地区的地图绘制困难进行定性审查。
对于交叉路口的不可见拓扑和轨迹推理,我们通过拓扑关系 精度-召回 指数以及推理轨迹 RMS 误差来评估我们的性能。交叉口的定量结果如表 2 所示。与城市化程度较低的地区的一系列其他方法相比,我们的算法仍然能够以较低的 RMS 误差发现交叉口的潜在拓扑关系。
C. Ablation study: true road topography
为了研究道路地形对我们的地图系统的影响,我们比较了使用真实道路地形生成的地图和使用地面平面假设生成的地图。定量比较如表 1 和表 2 所示。很明显,通过 LIDAR 校正地形,我们在原子道路检测精度和召回分数上有显着提高。此外,估计的可驾驶区域更接近我们标记的基本事实。
VI. CONCLUSION AND FUTURE WORKS
我们已经证明,在复杂的城市场景中,通过精心设计的框架,可以自动构建一个高清地图。一个精心设计的框架。语义理解和蒙特卡洛探索策略是我们提出的方法的核心。通过在累积的语义BEV地图上使用粒子过滤器,我们能够发现原子性的道路结构。此外,通过利用OSM,我们推断出了交叉口的拓扑和几何连接。在密集的城市化地区测试,我们提出的方法能够实现大规模的高清地图构建,进一步促进下游模块的完全自主化。在目前的管道中,二维图像的语义分割限制了我们在严重遮挡的场景中的能力。下一步,我们计划采用模态(非模态?amodel)预测管道来直接预测BEV领域的语义地图。