论文阅读笔记-Hierarchical Road Topology Learning for Urban Map-less Driving

Title：Hierarchical Road Topology Learning for Urban Map-less Driving

题目：面向城市无地图驾驶的分层道路拓扑学习

依赖于高清地图是自动驾驶汽车大规模部署的障碍之一，因为这种地图的可扩展性很差。在本文中，我们通过利用车辆本身的感知系统来解决在线地图提取的问题。

为此，我们设计了一个结构化模型，其中道路网络的图形表示在完全卷积网络中以分层方式生成。该方法能够处理复杂的道路拓扑并且不需要用户参与。

我们设计了一种学习方法，其中在当前状态下学习道路状况及其组成部分，与道路复杂性和车道数量无关。该模型接收反映瞬时环境状况以及道路结构和障碍物的车辆周围环境的快照。然后，它以分层方式预测道路拓扑；在低层检测自我车辆的可行驶车道，然后将此信息连接到全局拓扑图以进行稳健导航。在地图的上下文中，该方法生成道路网络地图，即一个边是对应于路段的折线，顶点表示每个车道段的起点、终点和分叉点的空间坐标的图。该地图根据自我车辆的位置和方向动态变化，仅包含车辆规划的相关信息。

分层道路拓扑学习

为了方便无地图自动驾驶，提出了一种分层地图学习方法，该方法不受高清地图的影响，能够纯粹基于车辆上的感觉系统来表示道路拓扑。在该方法中，道路拓扑被定义为一组关键点及其相对连通性，每个关键点代表一个车道段。该模型是一个多阶段、多任务的网络，经过训练，可以依次创建从可行驶车道到完整道路拓扑的地图组件。

输入参数化

将自我车辆周围的环境编码为栅格化的鸟瞰图，其中包含多个信息通道:占用率、地面语义、摄像机的地面标记和激光雷达的地面强度。

占用率通道：使用 Dempster-Shafer 组合规则，结合了来自 LiDAR 和相机的测量值，这些测量值在语义上被分类为障碍物。
地面语义通道：积累可行驶道路、人行道和地形的位置信息。

依据 [10] 和 [25] ，在前面的步骤中使用相机和 LiDAR 数据提取用于区分地面和障碍物测量的语义信息。 [10] 的模型被进一步扩展以推断相机图像中的道路标记，这些标记在地面标记通道中累积。
对于所有通道，测量值不仅在传感器之间累积，而且随着时间的推移（使用自我运动校正）累积，以获得单一的整体和时间稳定的输入表示。结果是图像 $I \in R^{H \times W \times C}$ ，其中 C 是通道数。

在实验中，我们使用车辆始终位于图像底部 1⁄4 的编码。

范围定义

基于人类对驾驶视界的直观理解，道路拓扑的定义局限于自我车辆的感知范围。这个范围就是由车辆当前位置可到达的车道段，包括前进、转向、并线。当车辆移动并接收到新的测量值时，这个范围也将被更新。这些范围的探测和变化都是通过拓扑结构实现的。

在这里应用了一个方向约束，其中每个车道段应该与自我车辆的偏航成一个锐角。

第一阶段：特征提取

车辆的可行使车道是驾驶的最基本信息。根据上一小节定义的范围，在图 $I$ 中勾勒出这些区域的大致范围。采用编码器-解码器结构，在聚合多尺度特征的同时，在每个分辨率上保留空间信息。

网络以与 $I$ 相同的空间分辨率输出可行驶车道的三个表示。

车道的位置被编码为截断的反距离变换图像 $R \in R^{H \times W \times C}$ ，其标记 $I$ 中的每个像素与它的相对距离最近的参考线。为了简化车道表示并为将来的规划目的定制输出，参考线被选为高清地图中车道段的中心线。与在车道级别预测二进制输出相比，参考线的反距离变换编码了更多关于自我车辆相对于道路边界的理想位置的信息。
每个车道的方向表示为 $D \in R^{H \times W \times C}$ ，这是一个具有连续值的 HSV 颜色编码图像，其中潜在可行驶车道中的每个像素反映了最近参考线的方向。
网络预测垂直方向图 $P \in R^{H \times W \times C}$ ，将法线方向编码到最近的参考线。

这些特征在网络的后期阶段被利用，以促进地图的分层定义以实现道路拓扑预测。

损失函数：
通过最小化参考线检测损耗 $l_{R}$ 和方向估计损耗 $l_{D}$ 和 $l_{P}$ 的加权组合来优化第一级模型的参数:

l_{s t a g e 1} (I) = l_{R} (I) + λ_{1} l_{D} (I) + λ_{2} l_{P} (I)

反距离变换和方向图估计任务都被视为回归。三种损失均定义为余弦相似度与L1的和。

第二阶段：关键点生成

第二阶段通过预测称为关键点的图形节点 $p (K | R, D, P)$ 作为道路图形表示的基线的近似值，其中 $K$ 表示对应的关键点网格。为了实现这一目标，拓扑图的特征由一组节点及其连接组成。

基于【范围定义】小节中定义的行驶水平生成的图形可能仍然非常复杂，为了便于学习，根据实际的标准车道宽度设置关键点网格的分辨率。

为了优化道路图并减少参数数量并确保相邻车道的关键点不落入同一个网格单元，每个单元只保留一个关键点，可以是第一个落入单元的关键点，也可以是单元格内所有关键点的平均值。此外，将消除所有不是起点的具有单个孩子的关键点。

我们将学习问题视为下采样网格空间中分割和回归的组合。具有两个 2D 卷积层和 6 个残差块的轻量级 CNN 旨在根据前一阶段的输出预测关键点网格 $K \in R^{H^{'} \times W^{'} \times 3}$ 。输出关键点网格本质上是对每个关键点网格单元格中关键点存在的概率及其在单元格内的相对位置进行编码，因此用于在原始分辨率中细化关键点的实际位置。值得注意的是，在这个过程中，不同类型的节点之间没有区别。

损失函数：
为了训练网络，通过最小化损失

估计包含关键点的单元格的可能性的像素级 sigmoid 交叉熵损失
关键点坐标的均方误差

l_{s t a g e 2} (R, D, P) = λ_{c o n f} (- \frac{1}{H^{'} W^{'}} \sum_{i = 1}^{H^{'}} \sum_{j = 1}^{W^{'}} [p_{i j} \log {\hat{p}}_{i j} + (1 - p_{i j}) \log (1 - {\hat{p}}_{i j})]) + λ_{c o o r d} (\frac{1}{N_{k}} \sum_{i = 1}^{N_{k}} (c_{i} - {\hat{c}}_{i})^{2})

其中 $N_{k}$ 表示预测的关键点总数， $p_{i j}^{n}$ 表示像素位置 (i, j) 的第 n 个关键点的地面真值图， $p_{i j}^{\hat{n}}$ 为对应的同一位置的 sigmoid 输出。

第三阶段:关键点、连接性和参考线预测

为了完成包含所需连接边的图来创建道路拓扑结构，将上一阶段预测的关键点网格传递到网络的第三阶段，估计图亲和力矩阵 $p (C, L | K, R, D, P)$ ，其中 C 和 L 表示网格对应的连接和车道信息。因此，在最后阶段，除了连接(本质上是两个关键点之间存在参考线的概率估计)之外，还预测了参考线的精确定位，这对无地图驾驶的最终任务至关重要。

参考线的定义:
对于图4a中生成的原始拓扑，高清地图中基准线的定义可能包含不同数量的点，这取决于基准线的曲率(图4b)。为了简化回归任务，考虑到【范围定义】小节中解释的可行驶车道方向约束，将基准线表示为两个给定关键点之间垂直均匀分布的锚点集合。这样就可以计算出基准线点的y坐标，将预测任务简化为仅对x坐标的回归。图4c给出了上述基准线的地面真实值定义。

图亲和力矩阵预测：
理论上关键点网格最多可以有 $W^{'} \times H^{'}$ 个关键点，但实际经验上，这个数量有一个更低的上限 $N_{k^{'}}$ 。因此，不使用 $(W^{'} \times H^{'}) \times (W^{'} \times H^{'})$ 的稀疏矩阵，而使用能记录 $N_{k^{'}}$ 个关键点索引及其连通性的关系矩阵来表示所有的连接。

对于一组给定的关键点，这些关键点表示为大小为 $H^{'} \times W^{'}$ 的矩阵，标有索引 $1 . . . N_{k^{'}}$ ，密集表示将采用两个矩阵的形式，包含原始连接索引 $C \in Z^{2 \times N_{k^{'}}}$ 和相应的参考线信息 $L \in Z^{(N_{r_{m a x} + 2}) \times N_{k^{'}}}$ ，其中 $N_{r_{m a x}}$ 表示模拟参考线段的最大端点数量。为此，预测的亲和矩阵使用完全连接的预测关键点集进行初始化。

据此，第三阶段网络预测出一个密集的亲和矩阵 $N_{k^{'}} \times N_{k^{'}} \times (N_{r_{m a x}} + 2)$ ，该矩阵包含连接性和参考线信息。在损失计算过程中， ground truth 和 predicted affinity matrix 都被映射回稀疏矩阵。这种转换也可以防止前一阶段的错误积累;即在出现错误预测的情况下，该步骤确保所有正确预测的关键点在计算损失之前都被索引到稀疏矩阵的正确位置。