论文阅读笔记-Topology Preserving Local Road Network Estimation from Single Onboard Camera Image
Topology Preserving Local Road Network Estimation from Single Onboard Camera Image
从单一的机载摄像机图像中进行拓扑结构保护的本地路网估算
Abstract
道路网络拓扑的知识对于自主规划和导航至关重要。然而,仅部分探索了从单个图像中恢复这种拓扑结构。此外,它还需要参考地平面,也就是在该地平面上执行驱动操作。本文旨在直接在鸟瞰图 (BEV) 中提取本地道路网络拓扑结构,所有这些都位于复杂的城市环境中。唯一的输入包括单个板载前视摄像头图像。我们使用一组有向车道曲线及其交互来表示道路拓扑,这些交互是使用它们的交叉点捕获的。为了更好地捕获拓扑,我们引入了最小循环(minimal cycles)及其覆盖(covers)的概念。最小循环是由有向曲线段(两个交点之间)形成的最小循环。封面是一组曲线,其分段参与形成最小循环。我们首先表明覆盖足以唯一地表示道路拓扑。然后使用覆盖物来监督深度神经网络,以及车道曲线监督。这些学习从单个输入图像预测道路拓扑。 NuScenes 和 Argoverse 基准测试的结果明显优于使用基线获得的结果。
1. Introduction

你会如何给司机指路?最直观的方法之一是说明转弯而不是距离。例如,第三个路口右转比直行 100 米右转更直观、更稳健。这一观察促使我们使用相关车道及其交叉口对道路网络进行建模。我们对按交通方向排序的车道交叉口进行建模。给定一条参考中心线
对于自动驾驶,汽车周围的本地道路网络中包含的信息对于自动驾驶系统的决策至关重要。本地道路网络既用于预测其他代理的运动 [15、23、36、45],也用于规划自我运动 [3、12]。表示道路网络的最流行方法是基于车道图的高清地图,其中包含有关中心线及其连通性的信息。大多数现有方法通过使用离线生成的高清地图结合模块化感知堆栈来解决道路网络提取问题[10、24、29、35、39]。然而,基于离线高清地图的解决方案有两个主要问题:(i)依赖于高清地图 [29、43] 中的精确定位,(ii)构建和维护此类地图的要求。这些要求严重限制了自动驾驶在地理受限区域运行的可扩展性。为了避免离线映射[6],建议直接从一张车载图像在线估计本地道路网络。受这种方法的启发,并考虑到基于图的地图拓扑一致性的重要性,我们建议直接监督地图生成网络以估计拓扑一致的道路网络。
从 [6] 开始,我们使用一组贝塞尔曲线来表示当地的道路网络。每条曲线代表一条行驶车道,在起点和终点的帮助下沿着交通流定向。然而,与 [6] 相比,我们还考虑了由这些有向曲线及其交叉点建模的道路网络的拓扑结构。更准确地说,我们依赖于以下陈述: 如果每条车道与其他车道的交叉顺序保持不变,则保留道路网络的拓扑结构。 直接估计交叉点的顺序是一个难题。因此,我们引入了最小循环及其覆盖的概念。最小循环是由有向曲线段(两个交点之间)形成的最小循环。在图 2 中,每个最小循环由不同的颜色表示。覆盖是一组曲线,其分段参与形成最小循环。给定两组曲线(一组估计和一组基本事实),如果两组中的所有曲线以相同的顺序相交,则两组定义的拓扑是等价的。在这项工作中,我们表明可以通过比较最小循环的覆盖来测量这种等价性。根据我们的发现,我们监督深度神经网络,该网络学习从单个图像预测拓扑保留道路网络。据我们所知,这是第一项研究估计道路网络拓扑问题的工作,从而超越了传统的车道图。
我们的模型预测车道曲线以及它们如何连接以及它们的覆盖物的最小循环。在学习过程中,曲线和循环都受到联合监督。曲线监督是通过匈牙利算法将预测曲线与地面实况匹配来执行的。类似地,循环监督将预测循环的覆盖与基本事实的覆盖相匹配。这种联合监督鼓励我们的模型在推理过程中预测准确和拓扑保持的道路网络,而不需要分支进行循环监督。
对于自动驾驶和其他机器人应用中的在线地图绘制,直接预测鸟瞰(BEV)中的道路网络至关重要,因为自动驾驶汽车的动作空间是地面。这与主要发生在图像平面中的传统场景理解形成对比。最近表明,在图像平面上执行 BEV 场景理解,然后将其投影到地平面上不如直接预测地平面上的输出 [7、9、33、34、38、42、43]。与我们的方法相比,这些方法不提供本地道路网络,而是在 BEV 上进行分割。请注意,仅道路区域并不能提供所需的拓扑信息。执行车道检测的类似方法仅限于像高速公路这样的道路,其中车道的拓扑结构很简单,并且无法预测具有交叉路口的城市场景中的道路网络,这是我们感兴趣的设置。如前所述,[6] 能够预测此类道路网络,但不考虑拓扑,我们将证明我们的拓扑推理可以改进 [6] 中提出的方法。
我们预测的连接曲线为我们提供了完整的车道图高清地图。
2. Related Works
现有作品可以大致分为两个不同的组;首先,离线方法,从航拍图像或聚合传感器数据中提取高清地图风格的道路网络。其次,在线方法,仅在给定当前车载传感器信息的情况下,估计车道边界或在 BEV 平面上执行语义理解。我们的方法位于两种方法之间,估计高清地图风格的车道图,然而,基于车载单目图像。
Road network extraction: 早期的道路网络提取工作使用航拍图像 [2, 37]。基于相同的设置,最近的工作 [4,40,41] 更有效地执行网络提取。基于航空成像的方法仅提供粗略的道路网络。这样的预测可能对路由有用,但是,它们对于行动计划来说不够准确。
High definition maps: 高清地图通常使用聚合的 2D 和 3D 视觉信息离线重建 [21,26,27]。尽管这些工作是我们工作的主要动机,但它们需要密集的 3D 点云来进行准确的高清地图重建。这些方法也是在某些规范帧中恢复高清地图的离线方法。
在许多情况下,使用恢复的地图需要准确的定位。与我们类似的工作是 [20],其中以折线的形式在高速公路上检测车道边界。 [20] 的扩展使用 RNN 在 3D 点云中生成初始边界点。然后将这些初始点用作预测车道边界的 Polygon -RNN [1] 的种子。我们的方法与 [20] 的不同之处在于:(i)点云与单个图像输入,(ii)高速公路车道边界与不受限制的车道中心线。
Lane estimation: 在使用单目相机进行车道估计方面有相当多的研究 [17, 31]。该任务要么直接在图像平面 [18、25] 上执行,要么通过将图像投影到地平面 [16、31、44] 在 BEV 平面上执行。然而,这一研究方向主要集中在高速公路和乡村道路上,没有交叉路口。在这种情况下,生成的道路车道工作的拓扑通常是微不足道的,因为线不相交。我们的方法侧重于具有复杂道路网络的城市交通,其中拓扑结构是基础。
BEV understanding: 由于其实用性,BEV 上的视觉场景理解最近变得流行 [7, 34, 38]。一些方法还将图像与 LIDAR [19, 32] 相结合。也许与我们的方法最相似的是 [7,30,38],它使用单个图像或单目视频帧进行 BEV 高清地图语义理解。但是,这些方法不提供结构化输出,因此它们在规划和导航方面的使用受到限制。
总之,在我们的论文中,我们在类似于 [22] 的设置中工作,其中输出是有向无环图。但是,输入不是聚合图像和 LIDAR 数据,而只是一张机载图像。因此,与现有车道估计相同的传感器设置可以工作,但是这些传感器并非设计用于在城市环境中工作。事实上,我们的设置与 [6] 相同,但我们的工作确实侧重于车道图的拓扑,并提出了一种直接监督网络以估计拓扑正确图的方法。
3. Method
3.1. Lane Graph Representation
在 [6] 之后,我们将本地道路网络表示为车道中心线段的有向图,通常称为车道图。设此有向图为
3.2. Topological Representation
虽然有向图构建了交通场景的抽象高级表示,但该图还引入了有关道路场景的基本拓扑属性。拓扑属性取决于中心线的交点,而车道图取决于中心线的连通性(连接由

我们假设目标 BEV 区域是有界的 2D 欧几里得空间,其中已知的边界曲线表示视场 (FOV) 的边界。与车道图相同,每条曲线都有一个表示交通流量的方向,而边界曲线有任意方向。我们将包括边界曲线在内的所有曲线的集合表示为
在估计交通场景的车道图,或者实际上是由曲线形成的任何图结构时,我们不仅希望正确估计车道图
为了建立这种等价性,让我们首先陈述以下结果,这些结果将交叉顺序与最小循环和覆盖联系起来,这在补充材料中详述的温和条件下成立。
Lemma(引理) 3.1. 一个最小闭合多曲线(最小循环)
如果陈述是错误的,最小覆盖
鉴于我们在最小覆盖和最小循环之间存在联系,我们现在关注交叉阶
Lemma 3.2. 让一组曲线
鉴于交叉顺序和最小周期之间的这种等价性,我们可以说明我们的主要结果。
Corollary(推论) 3.2.1. 从引理 3.1 和引理 11.2,给定结构
关于推论 3.2.1 的显着事实是我们将全局排序问题转换为检测问题。无需为每条曲线创建序列,只需检测最小循环就足够了,其中每个最小循环可以由
3.3. Structural Mapping
先前的理论结果使我们能够训练一个联合估计曲线和相交顺序的深度神经网络。因此,我们为估计
使用神经网络,我们预测固定数量的曲线和最小循环,这大于任何场景中的实际曲线和循环数。因此,假设有一个函数
3.4. Training Framework
网络的输出是(i)一组候选曲线和(ii)关于候选曲线定义的最小循环。在训练中,我们对中心线控制点之间的 L1 差异使用匈牙利匹配。然而,对于最小周期来说,它更复杂,其中基本事实拓扑与估计拓扑之间的匹配是一致的。假设有
Min Matching. 由于在 GT 曲线上定义了基本事实 (GT) 最小循环,而在估计曲线上定义了检测到的最小循环,我们必须首先在估计曲线和 GT 曲线之间形成匹配。使用匈牙利匹配并不理想,因为它没有考虑估计曲线的碎片。碎片化是多条相连的估计曲线代表一条GT曲线的情况。因此,估计的候选最小循环通常比它们的 GT 对应物具有更多的候选曲线。由于匈牙利算法中的一对一匹配,一条长的 GT 曲线只能与一条短的、分段的曲线匹配,即使组合估计的分段会导致更接近的近似值。因此,我们改为将每条候选曲线与其最接近的 GT 曲线匹配。这意味着每条候选曲线都与一条 GT 曲线匹配,而一条 GT 曲线可以与任意数量(包括零)条候选曲线匹配。
在最小匹配之后,我们为最小循环估计创建了一个新目标,我们用
对于曲线的连通性,我们明确地估计了我们网络中
中心线样条控制点和最小循环中心是用 L1 损失训练的,而我们利用二元交叉熵来计算中心线和最小循环概率。我们还将二元交叉熵用于最小循环的成员损失,即在
4. Network Architectures
在 [6] 之后,我们专注于两种不同的架构来验证我们的公式的影响。第一种架构基于 Transformer [8],而第二种方法基于 Polygon-RNN [1]。
4.1. Transformer
我们修改了 [6] 中提出的基于 transformer 的架构。我们使用两种类型的学习查询向量:中心线(曲线)和循环查询。在由转换器处理之前,我们连接中心线和循环查询。因此,曲线和周期是联合估计的。转换器输出处理后的查询,对应于我们公式中的
作为基线,我们在基础 transformer 上添加了一个 RNN,以直接估计交叉点的顺序并为网络提供监督。 RNN 独立处理来自转换器的每个中心线查询输出,并在每个时间步生成一个
4.2. Polygon-RNN
第二个网络基于 Polygon-RNN [1],类似于 [20],作者从点云生成车道边界。我们调整 [20] 以处理图像并输出中心线而不是车道边界。在 [6] 之后,我们使用了一个以
给定初始位置和主干特征,Polygon-RNN [1] 生成中心线的下一个控制点。我们将 Polygon-RNN 的迭代次数固定为用于编码中心线的样条系数的数量。到目前为止描述的方法形成了基础 Polygon-RNN 。使用 Polygon-RNN 产生
5. Metrics
[6] 中提出了几个指标来衡量估计车道图的准确性。它们是 M-F-Score 、检测率 和 连通性 。这些指标不涵盖道路网络的拓扑结构。因此,我们提出了两个新的指标来捕捉估计拓扑的准确性。建议的指标补充了现有的车道图指标,以全面了解估计的道路网络的准确性。
Minimal-Cycle Minimal Cover (B). 我们测量 2 个输入的最小循环精度。首先,从估计中提取最小周期。我们使用第 3.4 节的过程来获得
Intersection Order (I of G(C, I)). 为了衡量方法在保留交集顺序方面的性能,我们从最小匹配开始。然后对于每条真实曲线,我们选择最接近的匹配估计。对于给定的真实曲线
6. Experiments
我们使用 NuScenes [5] 和 Argoverse [11] 数据集。两个数据集都以中心线的形式提供高清地图。我们将中心线的世界坐标转换为当前帧的相机坐标系,然后使用目标 BEV 分辨率重新采样这些点,并丢弃感兴趣区域 (ROI) 之外的任何点。然后使用 ROI 边界
Implementation. 我们使用尺寸为 448x800 的图像,目标 BEV 区域在
Baselines. 我们与 [6] 中提出的基于最先进的 transformer 和基于 Polygon-RNN 的方法以及使用方法 PINET [25] 提取车道边界的另一个基线进行比较。然后使用地面实况变换将提取的车道边界投影到 BEV 上。然后我们耦合成对的车道边界并使用样条线提取中心线。不评估此基线的连通性。
7. Results
![]() |
![]() |
我们在表 1 中报告了Nuscenes 数据集上与 SOTA 的定量比较。提出的公式为基于 Polygon-RNN 的方法提供了几乎所有度量的实质性提升。与 [6] 中提出的基于 transformer 的方法相比,我们的方法在所有指标上都表现得更好。我们还在表 2 中的 Argoverse 数据集中验证了我们的方法。可以看出,我们的方法始终优于竞争对手。
我们还报告了表3中给定真实初始中心线点的基于 Polygon-RNN 的方法的结果。请注意,Polygon-RNN 和 Polygon-RNN(GT) 是具有相同参数的相同模型,唯一的区别是真实或估计的初始点。结果表明,我们的公式适用于显著不同的架构和不同的设置。
![]() |
![]() |
远非其真正实现的编辑距离。这表明交叉点的递归估计是我们在表 4 中提供了对建议的最小循环分支的评估。两个数据集中的 H-GT-F 结果表明,基于变压器的方法在检测真正的最小周期方面更好,因此可以估计真正的拓扑。此外,从 H-EST-F 结果可以看出,基于 transformer 的方法更能自我感知得到的路网估计。从 transformer 的 H-GT-F 和 MC-F 值之间的相似性可以得出相同的结论。这意味着该方法输出的中心线估计与其拓扑估计一致。这些结果是预期的,因为变压器联合估计中心线和最小周期,而 Polygon-RNN 输出是分阶段的。一个重要的观察结果是 MC 度量与 I-Order 有明显的相关性,经验证明 MC 覆盖和相交顺序的等价性。我们观察到 TR-RNN 方法的直接阶估计不如我们基于最小循环的公式准确。在 Nuscenes 数据集中,随着场景复杂度增加,不同方法的性能如图 7 所示。正如预期的那样,随着中心线、交叉点和场景遮挡数量的增加,所有方法的性能都会下降。尽管如此,所提出的基于 MC 的方法始终能产生比基线更好的 I-Order。比较方法的一些定性示例如图 6 所示,其中使用 MC 分支的方法再次更可取。
8. Conclusion
我们研究了从单个车载摄像头图像中提取本地道路网络。为了鼓励拓扑一致性,我们通过仅匹配它们的覆盖来制定最小循环匹配策略。然后我们的公式被用来推导损失,训练两种不同架构的神经网络,即 Transformer 和 Poly-RNN。两种架构都在两个常用的基准数据集上展示了所提出的 MC 分支的重要性,以及由此形成的损失函数。所提出的公式和方法有可能用于许多其他需要拓扑一致输出的计算机视觉问题,例如室内房间布局估计或场景解析。
Limitations. 对于大多数现代道路网络,理论假设是温和的。提取训练的最小周期非常耗时,应该离线完成。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 因为Apifox不支持离线,我果断选择了Apipost!
· 通过 API 将Deepseek响应流式内容输出到前端