论文阅读笔记-HDMapNet: An Online HD Map Construction and Evaluation Framework
HDMapNet: An Online HD Map Construction and Evaluation Framework
HDMapNet:一个在线高清地图构建与评估框架
Abstract
构建高清语义地图是自动驾驶的核心组成部分。然而,传统的管道需要大量的人力和资源来注释和维护地图中的语义,这限制了它的可扩展性。在本文中,我们介绍了高清语义地图学习问题,该问题基于车载传感器观察动态构建局部语义。同时,我们引入了一种语义地图学习方法,称为 HDMapNet。 HDMapNet 对来自周围摄像机和/或来自 LiDAR 的点云的图像特征进行编码,并预测鸟瞰图中的矢量化地图元素。我们在 nuScenes 数据集上对 HDMapNet 进行了基准测试,并表明在所有设置中,它的性能都优于基线方法。值得注意的是,我们基于相机-LiDAR 融合的 HDMapNet 在所有指标上都优于现有方法 50% 以上。此外,我们开发了语义级和实例级指标来评估地图学习性能。最后,我们展示了我们的方法能够预测局部一致的地图。通过介绍方法和指标,我们邀请社区研究这个新颖的地图学习问题。
INTRODUCTION
我们研究了可扩展和负担得起的自动驾驶解决方案,例如,最大限度地减少注释和维护高清地图的人力。为此,我们引入了一种新的语义地图学习框架,利用机载传感器和计算来估计矢量化的局部语义地图。值得注意的是,我们的框架并不旨在取代全局高清地图重建,而是提供一种简单的方法来预测局部语义地图,用于实时运动预测和规划。
我们提出了一种名为 HDMapNet 的语义地图学习方法,它从周围摄像机的图像和/或像激光雷达这样的点云中生成矢量化地图元素。 我们研究了当深度缺失时如何有效地将透视图像特征转换为鸟瞰图特征。 我们提出了一种新颖的视图变换器,它由神经特征变换和几何投影组成。 此外,我们研究了点云和相机图像在这项任务中是否相互补充。 我们发现不同的地图元素在单一模式中的识别度不同。 为了两全其美,我们最好的模型将点云表示与图像表示相结合。 该模型在所有类别中都显着优于其单模态模型。
最后,我们提出了综合评估地图学习性能的方法。这些指标包括语义层面和实例层面的评估,因为地图元素通常在HD地图中表现为对象实例。
RELATED WORK
语义地图建设。 在本文中,我们认为我们提出的局部语义地图学习任务是一个潜在的可扩展的自动驾驶解决方案。
透视视图车道检测。 除了检测车道之外,我们的工作还通过周边摄像头或激光雷达(lidar)输出车辆周围一致的本地语义地图。
交叉视角学习。 我们的工作集中在局部语义地图构建的关键任务,我们使用交叉视图传感方法以矢量形式生成地图元素。此外,该模型易于与激光雷达输入融合,进一步提高了模型的精度。
SEMANTIC MAP LEARNING
我们提出了语义地图学习,这是一种产生本地高清语义地图的新颖框架。 它接受摄像头图像和激光雷达点云等传感器输入,并输出矢量化地图元素,例如车道分隔线、车道边界和行人过路处。 我们使用 \(\mathcal{I}\) 和 \(\mathcal{P}\) 分别表示图像和点云。 可选地,该框架可以扩展到包括其他传感器信号,如雷达。 我们将 \(\mathcal{M}\) 定义为要预测的地图元素。
A. HDMapNet
我们的语义地图学习模型 HDMapNet 通过神经网络直接从单帧 \(\mathcal{I}\) 和 \(\mathcal{P}\) 中预测地图元素 \(\mathcal{M}\) 。概述如图2所示,四个神经网络参数化了我们的模型:
- 视角图像编码器(view image encoder) \(\phi _\mathcal{I}\)
- 图像分支中的神经视图转换器(neural view transformer) \(\phi _\mathcal{V}\)
- 基于支柱的点云编码器(pillar-based point cloud encoder) \(\phi _\mathcal{P}\)
- 地图元素解码器(map element decoder) \(\phi _\mathcal{M}\)
我们将HDMapNet家族表示为:
- HDMapNet(Surr):只接收周围的图像
- HDMapNet(LiDAR):只接收周围的激光雷达
- HDMapNet(Fusion):同时接收两者
图像编码器:
我们的图像编码器有两个组件,分别是视角图像编码器和神经视图转换器。
透视图图像编码器。 我们的图像分支从 \(N_m\) 个周围的摄像机获取透视图输入,覆盖场景的全景。 每幅图像 \(\mathcal{I} _i\) 由共享神经网络 \(\phi _\mathcal{I}\) 嵌入,来得到透视图特征图 \(\mathcal{F} ^{pv} _{\mathcal{I} _i} ⊆ \mathbb{R}^{H _{pv}×W_{pv}×K}\) 其中 \(H _{pv}\) 、 \(W_{pv}\) 和 \(K\) 分别是高度、宽度和特征维度。
神经视图转换器。 如图 3 所示,我们首先将图像特征从透视图转换为相机坐标系,然后再转换为鸟瞰图。 透视图和相机坐标系之间任意两个像素的关系由多层感知器 \(\phi _{\mathcal{V} _i}\) 建模:$$\mathcal{F} ^c _{\mathcal{I} _i}[h][w] = \phi ^{hw} _{\mathcal{V}i} (\mathcal{F} ^{pv} _{\mathcal{I} _i} [1][1], . . . , \mathcal{F} ^{pv} _{\mathcal{I} _i} [H _{pv}][W _{pv}]) \tag{1}$$其中 \(\phi ^{hw} _{\mathcal{V}i}\) 对摄像机坐标系中 \((h, w)\) 位置的特征向量与透视视图特征地图上每个像素的关系进行了建模。我们将 \(\mathcal{F} ^{c} _{\mathcal{I}}\) 自上而下的空间维度表示为 \(H _c\) 和 \(W _c\) 。鸟瞰图(自我坐标系统)特征 \(\mathcal{F} ^{bev} _{\mathcal{I} _i} \subseteq \mathbb{R} ^{H _{bev} \times W _{bev} \times K}\) 是通过使用相机外部几何投影转换特征 \(\mathcal{F} ^c _{\mathcal{I} _i}\) 得到的,其中 \(H _{bev}\) 和 \(W _{bev}\) 是鸟瞰图中的高度和宽度。最终的图像特征 \(\mathcal{F} ^{bev} _{\mathcal{I}}\) 是 \(N_m\) 相机特征的平均值。
点云编码器:
我们的点云编码器 \(\phi _\mathcal{P}\) 是 PointPillar[30] 的一个变体,具有动态体素化[31],它将三维空间划分为多个柱子,并从柱状点云的柱状特征学习特征映射。输入为点云中的 \(N\) 个激光雷达点。对于每个点 \(p\) ,它有三维坐标和额外的 k 维特征,表示为 \(f_p ⊆ \mathbb{R} ^{K+3}\) 。
- 动态体素化消除了对每一个体素采样预定义点数的需要,这意味着每一个点可以被模型使用,从而减少信息损失。
- 它消除了将体素填充到预定义大小的需要,即使它们的点非常少。这可以极大地减少来自HV的额外空间和计算开销,特别是在点云变得非常稀疏的较长的范围内。例如,以前的模型如VoxelNet和PointPillars为每个voxel(或每个等效的3D卷)分配100个或更多的点。
- DV克服了点/体素的随机缺失,产生了确定的体素嵌入,使得检测结果更加稳定。
- 它是融合来自多视图的点级上下文信息的自然基础
《/动态体素化》
当从点向鸟瞰图投射特征时,多个点可能会落在同一个柱子上。我们将 \(P_j\) 定义为与支柱 \(j\) 对应的点集。为了从支柱中的点聚合特征,需要一个 PointNet[32] (记为PN) ,其中
然后,通过一个卷积神经网络 \(\phi _{pillar}\)进一步对柱向特征进行编码。我们将鸟瞰图中的特征图表示为\(\mathcal{F} ^{bev} _P\)。
鸟瞰译码器:
该地图是一个复杂的图网络,包括车道分隔器和车道边界的实例级信息和方向信息。车道线需要矢量化,而不是像素级的表示,这样自动驾驶车辆就可以跟随它们。因此,我们的 BEV 译码器 \(\phi _\mathcal{M}\) 不仅能输出语义分割,还能预测实例嵌入和车道方向。对嵌入的实例进行后处理并向量化。
总体的结构。 BEV译码器是一个完全卷积网络(FCN),有3个分支,分别是语义分割分支、实例嵌入分支和方向预测分支。BEV译码器的输入是图像特征映射 \(\mathcal{F} ^{bev} _{\mathcal{I}}\) 和/或点云特征映射 \(\mathcal{F} ^{bev} _{\mathcal{P}}\) ,如果两者都存在,我们将它们连接起来。
语义的预测。 语义预测模块是一个完全卷积网络(FCN),我们使用交叉熵损失进行语义预测。
实例嵌入。 我们的实例嵌入模块试图聚集每个鸟瞰视图嵌入。为了便于表示,我们遵循[34]中的精确定义: \(C\) 是 ground truth 中的簇数,\(N _c\)是簇 \(c\) 中的元素数,\(µ _c\) 是簇 \(c\) 的嵌入均值, \(|| \cdot ||\) 是 L2 范数, \([x] _+ = \max(0, x)\) 表示元素最大值。 \(\delta _v\) 和 \(\delta _d\) 分别是差异性损失和距离损失的边际。聚类损失 \(L\) 的计算方法为:
方向的预测。 方向模块的目的是从每个像素 \(C\) 预测车道方向,方向离散为均匀分布在单位圆上的 \(N _d\) 类。通过将当前像素 \(C _{now}\) 分类为方向 \(D\) ,可得到 \(C _{next}\) 车道的下一个像素为\(C _{next} = C _{now} + \Delta _{step} \cdot D\) ,其中 \(\Delta _{step}\) 为预定义的步长。由于我们不知道车道的方向,我们无法识别每个节点的前进和后退方向。 相反,我们将它们都视为 positive labels 。 具体来说,每个车道节点的方向标签是一个 \(N_d\) 向量,其中 2 个索引标记为 1,其他索引标记为 0。请注意,topdown 地图上的大多数像素都不位于车道上,这意味着它们没有方向。 这些像素的方向向量是零向量,我们从不在训练期间对这些像素进行反向传播。 我们使用 softmax 作为分类的激活函数。
向量化。 在推断过程中,我们首先使用基于密度的带噪声应用空间聚类 (DBSCAN) 对实例嵌入进行聚类。然后使用非极大值抑制 (non-maximum suppression, NMS) 来减少冗余。最后,利用预测的方向贪婪地连接像素,得到向量表示。
B. Evaluation
在本节中,我们提出了语义映射学习的评估协议,包括语义度量和实例度量。
语义度量:
模型预测的语义可以用欧拉方式和拉格朗日方式进行评估。在密集的网格上计算欧拉度量,并测量像素值的差异。相反,拉格朗日度量随着形状移动并测量形状的空间距离。
欧拉指标。 我们使用IoU作为欧拉度量,它由:$$\rm{IoU} (\mathcal{D} _1, \mathcal{D} _2) = \frac{|\mathcal{D} _1 ∩ \mathcal{D} _2|}{|\mathcal{D} _1 ∪ \mathcal{D} _2|} \tag{6}$$式中, \(\mathcal{D} _1, \mathcal{D} _2 ⊆ \mathbb{R} ^{H×W×D}\) 为形状的密集表示(曲线在网格上栅格化); \(H\) 和 \(W\) 为网格的高度和宽度, \(D\) 为类别数; \(| \cdot |\) 表示集合的大小。
拉格朗日指标。 拉格朗日度量。 我们对结构化输出感兴趣,即曲线由连接点组成。 为了评估预测曲线和 groundtruth 曲线之间的空间距离,我们使用曲线上采样的点集之间的倒角距离 (CD) :
式中\(\rm{CD_{dir}}\)为方向倒角距离, CD 为双向倒角距离; \(\mathcal{S} _1\) 和 \(\mathcal{S} _2\) 是曲线上的两组点。
实例指标:
我们进一步评估模型的实例检测能力。我们使用与对象检测[35]相似的平均精度(average precision, AP),由
其中\(\rm{AP _r}\)为 \(recall=r\) 时的精度。我们收集所有的预测并根据语义置信度降序排列它们。然后,我们根据 CD 阈值对每个预测进行分类。例如,如果 CD 低于预定义的阈值,则认为是真阳性,否则为假阳性。最后,我们得到所有的精确召回对,并计算相应的 APs。
EXPERIMENTS
A. Implementation details
任务和指标。 我们在 NuScenes 数据集[36]上评估我们的方法。
- 我们重点研究了两个子任务:语义映射分割和实例检测。
- 由于 nuScenes 数据集中有限的地图元素类型,我们考虑了三个静态地图元素:车道边缘(马路牙子)、车道分隔线和人行横道。
体系结构。 对于透视图图像编码器,我们采用 ImageNet[38] 上预训练的 effecentnet - b0[37] (博客)。然后,利用多层感知器 (MLP) 将视角特征转换为摄像机坐标系下的鸟瞰图特征。 MLP 是共享的通道—非常明智,并且不会改变特征维度。对于点云,我们使用 PointPillars[39] 的变体[31]和动态体素化[31]。我们使用带有 64 维层的 PointNet[32] 在柱子中聚集点。使用三个块的 ResNet[40] 和作为 BEV 解码器。(PointNet、PointPillars)
训练的细节。 我们使用交叉熵损失进行语义分割,并使用判别熵损失(公式5)进行实例嵌入,其中我们设置 \(α = β = 1\) , \(δ _v = 0.5\), \(δ _d = 3.0\) 。我们使用Adam[41]进行模型训练,学习速率为1e−3。
B. Baseline methods
对于所有基线方法,我们使用与 HDMapNet 相同的图像编码器和解码器,只更改了视图转换模块。
逆透视映射 (IPM)。 最直接的基线是通过 IPM [42]、[43] 将分割预测映射到鸟瞰图。
带有鸟瞰图解码器的 IPM (IPM(B))。 我们的第二个基线是 IPM 的扩展。 我们不是在透视图中进行预测,而是直接在鸟瞰图中执行语义分割。
具有透视图特征编码器和鸟瞰图解码器 (IPM(CB)) 的 IPM。 下一个扩展是在透视视图中执行特征学习,同时在鸟瞰视图中进行预测。
Lift-Splat-Shoot。 Lift-Splat-Shoot [29] 估计透视图图像中的深度分布。 然后,它将 2D 图像转换为具有特征的 3D 点云,并将它们投影到自我车架中。
视图解析网络 (VPN)。 VPN [27] 提出了一个简单的视图转换模块:一个视图关系模块来建模任意两个像素之间的关系,一个视图融合模块来融合像素的特征。
C. Results
我们比较了我们的 HDMapNet 与基线。表一显示了这些比较。首先,我们的 HDMapNet(Surr),这是一种周围只有摄像头的方法,优于所有基线。这表明,我们新颖的基于学习的视角转换确实是有效的,无需对复杂地平面(IPM)或估计深度(liftsplate - shoot)做出不切实际的假设。其次,我们的 HDMapNet(LiDAR)在边界方面优于 HDMapNet(Surr),但在分隔线和行人过路方面较差。这表明不同的类别在一个模态中是不能同样识别的。第三,我们的融合模型与相机图像和 LiDAR 点云的融合取得了最好的性能。它比基线和我们的仅用相机的方法相对提高了50%。
另一个有趣的现象是,不同的模型在 CD 方面表现不同。例如, VPN 在所有类别中拥有最低的 CDP ,而它在 CDL 上的表现不如它的对手,拥有最差的整体 CD 。相反,我们的 HDMapNet(Surr)平衡了 CDP 和 CDL ,在所有基于摄像头的方法中获得最好的 CD 。这一发现表明, CD 与 IoU 是互补的,这显示了模型的精度和召回率方面。这有助于我们从另一个角度理解不同模型的行为。
实例图检测。 在图2(实例检测分支)中,我们展示了使用主成分分析(PCA)的嵌入可视化。即使车道距离很近或有交叉路口,也会分配不同的颜色。这证实了我们的模型能够学习实例级信息,并且能够准确地预测实例标签。在图2(方向分类分支)中,我们展示了由我们的方向分支预测的方向掩码。方向一致,平稳。我们在图4中展示了后处理后产生的矢量化曲线。在表II中,我们给出了实例地图检测的定量结果。HDMapNet(Surr)的性能已经超过基线,而HDMapNet(Fusion)的性能明显优于所有同类产品,例如,它比IPM提高了55.4%。
传感器融合。 在本节中,我们进一步分析了传感器融合在构建高清语义地图中的作用。如表一所示,对于分隔器和行人过街,HDMapNet(Surr)的性能优于HDMapNet(LiDAR),而对于车道边界,HDMapNet(LiDAR)的性能更好。我们假设这是因为车道边界附近有高程变化,使其易于在激光雷达点云中检测。另一方面,道路分割线和人行横道的颜色对比是很有帮助的信息,使这两类图像更容易被识别;可视化也在图4中确认了这一点。当激光雷达和相机相结合时,可以实现最强的性能;组合模型的性能比使用单个传感器的两种模型都要好得多。这表明这两个传感器包含相互补充的信息。
恶劣的天气条件。 在这里,我们评估了我们的模型在极端天气条件下的稳健性。如图 5 所示,我们的模型可以生成完整的车道,即使在光照条件不好或雨水遮挡视线的情况下。我们推测,当道路不完全可见时,该模型可以根据部分观察预测车道的形状。虽然在极端天气条件下性能有所下降,但整体表现尚可。 (表三)
时间融合。 在这里,我们对时间融合策略进行了实验。我们首先通过根据自我姿势将先前帧的特征图粘贴到当前帧中来进行短期时间融合。特征图通过最大池化融合,然后输入解码器。如表IV所示,融合多帧可以提高语义的IoU。我们通过融合分割概率进一步实验长期时间积累。如图 6 所示,我们的方法在融合多个帧的同时产生具有更大视野的一致语义图。
V. CONCLUSION
HDMapNet 直接从相机图像和/或 LiDAR 点云预测高清语义地图。 与需要大量人力的全局地图构建和注释管道相比,局部语义地图学习框架可能是一种更具可扩展性的方法。 尽管我们的语义地图学习基线方法不能生成准确的地图元素,但它为系统开发人员提供了另一种在可扩展性和准确性之间进行权衡的可能选择。