论文阅读笔记-A Keypoint-based Global Association Network for Lane Detection
A Keypoint-based Global Association Network for Lane Detection
基于关键点的全局车道检测网络
Abstract
车道检测是一项具有挑战性的任务,需要预测车道线的复杂拓扑形状,并同时区分不同类型的车道。较早的作品遵循自上而下的路线图,以将预定义的锚点回归各种车道线的形状,由于固定的锚形状,由于固定锚的形状而缺乏足够的灵活性来适合复杂的车道形状。最近,一些作品建议将车道检测作为关键点估计问题,以更灵活地描述车道线的形状,并逐渐以尖端的方式分组属于同一车道线的相邻关键点,这是效率效率且在后期过程中的时间效率, 。在本文中,我们提出了一个全局关联网络(GANet),以从新的角度从新角度提出车道检测问题,其中每个关键点都直接回归到车道线的起点,而不是逐点扩展。具体而言,通过将其偏移到全球泳道的相应起点而无需彼此依赖的情况下,可以通过预测其偏移来进行关键点与其属于其属于车道线的关联,这可以并行地提高效率。此外,我们进一步提出了一个巷道特征聚合器(LFA),该特征聚合器可适应地捕获相邻关键点之间的局部相关性,以将本地信息补充到全球关联。在两个流行的车道检测基准上进行的广泛实验表明,我们的方法的表现优于先前的 Culane F1 得分为79.63%的方法,而 Tusimple 数据集的 F1 分数为 97.71% ,而 FPS 高。
1. Introduction

给定安装在车辆上的摄像头拍摄的前视图像,车道检测旨在生成道路上每条车道线的准确形状。由于车道线的细长形状和实例级别区分的需要,适当地制定车道检测任务至关重要。受基于锚的对象检测方法 [22] 的启发,一些作品 [10, 25] 遵循自上而下的设计,如图 1a 所示。与目标检测类似,一组具有不同方向的直线被定义为锚点。通过预测锚点和车道点之间的偏移量,将锚点上的点回归到车道线。之后,应用非最大抑制 (NMS) 来选择置信度最高的车道线。虽然这种方法在车道识别方面很有效,但由于预定义的锚点形状,它不灵活。强形状先验限制了描述各种车道形状的能力,导致这些方法的性能次优。
为了灵活描述复杂形状的车道线,Qu 等. [21] 提出将车道检测表述为关键点估计和关联问题,采用自下而上的设计,如图 1b 所示。具体来说,车道用一组以稀疏方式均匀采样的有序关键点表示。每个关键点通过估计它们之间的空间偏移量与其邻居相关联。这样,属于同一车道的关键点被迭代地整合成一条连续的曲线。尽管基于关键点的方法在车道线的形状上很灵活,但在每一步仅将一个关键点与其所属的车道线相关联是低效且耗时的。此外,关键点的逐点扩展由于缺乏全局视图而容易造成误差累积。一旦错误地关联了一个特定的关键点,车道线其余部分的估计就会失败。
为了克服上述限制,我们从一个新的基于关键点的角度制定车道检测问题,其中每个关键点直接回归到其所属的车道,在此基础上提出了一种名为全球关联网络(GANet)的新型管道。如图 1c 所示,每条车道线都以其起点唯一地表示,这很容易确定,没有歧义。为了正确关联关键点,我们估计从关键点到其相应起点的偏移量。近似起点落入同一邻域的关键点将被分配到同一车道线实例,从而将关键点分成不同的组。与之前基于关键点的方法[21]不同,我们将关键点分配给它们所属的车道是相互独立的,使得并行实现变得可行,这极大地提高了后处理的效率。此外,由于每个关键点都拥有全局视图,因此关键点关联对累积的单点误差更加稳健。
虽然属于同一车道线的关键点在后处理过程中被整合,但重要的是确保相邻点之间的相关性以获得连续曲线。为此,我们开发了一个名为 Lane-aware Feature Aggregator (LFA) 的局部信息聚合模块,以增强相邻关键点之间的相关性。为了适应车道的细长形状,我们通过预测到相邻点的偏移量来修改标准二维可变形卷积[3]的采样位置,以便每次在车道上的局部区域内进行采样。这样,每个关键点的特征与其他相邻点进行聚合,从而获得更具代表性的特征。我们进一步添加了一个辅助损失,以方便估计在每个关键点上预测的偏移量。我们的 LFA 模块补充了全局关联过程,以启用局部和全局视图,这对于车道检测等密集标记任务至关重要。
2. Related Works
2.1. Lane Detection Methods
车道检测旨在获得车道线的准确形状以及区分它们。根据车道建模的方式,目前基于深度学习的方法大致可以分为几类。我们将在本节中分别详细阐述这些方法。
基于分割的方法。 基于分割的方法将车道线检测建模为每像素分类问题,每个像素被分类为车道区域或背景[6、8、16、18]。为了区分不同的车道线,SCNN [18]将不同的车道线视为不同的类别,从而将车道检测转化为多类分割任务。还提出了一种逐片 CNN 结构,以使消息能够跨行和列传递。为了满足实践中的实时性要求,ENet-SAD [6] 将自注意力蒸馏机制应用于上下文聚合,从而允许使用轻量级骨干网。 LaneNet [16]通过将车道检测作为实例分割问题采用了不同的车道表示方式。包括一个二进制分割分支和一个嵌入分支,以将分割结果分解为车道实例。与 LaneNet 不同,我们的方法使用偏移量而不是嵌入特征来对每条车道线进行聚类,这样更高效、更省时。
基于检测的方法。 这种方法通常遵循自顶向下的方式来预测车道线。其中,anchor-based methods [10, 25, 28] 设计了线状的锚点,并回归采样点和预定义锚点之间的偏移量。然后应用非最大抑制 (NMS) 来选择置信度最高的车道线。 Line CNN [10] 使用从具有特定方向的图像边界发出的直线射线作为一组锚点。曲线 - NAS [28] 将锚定义为垂直线,并进一步采用神经架构搜索 (NAS) 来搜索更好的主干。 Lane ATT [25] 提出了一种基于锚的池化方法和一种注意力机制来聚合更多的全局信息。另一种方法 [14, 20] 将车道检测公式化为逐行分类问题。对于每一行,模型预测可能包含车道线的位置。
基于关键点的方法。 受人体姿态估计的启发,一些工作将车道检测视为关键点估计和关联问题。 PINet [9] 使用堆叠沙漏网络 [17] 来预测关键点位置和特征嵌入。基于特征嵌入之间的相似性对不同的车道实例进行聚类。 FOLO Lane [21] 生成一个像素级热图,其分辨率与输入相同,以获得车道上的点。还开发了一种局部几何构造方式来关联属于同一车道实例的关键点。我们的 GA 网络采用更高效的后处理方法,既不需要特征嵌入也不需要局部关联来聚类或重建整个车道。每个关键点通过将其坐标与偏移量以平行方式添加到车道线起点来找到其对应的车道。
2.2. Deformable Modeling
由于固定的网格——卷积操作的采样范围,传统的 CNN 本质上仅限于对不规则结构进行建模。为了克服这一限制,Dai 等人。 [3] 提出了可变形卷积来自适应地聚合局部区域内的信息。与标准卷积相比,在采样过程中在每个空间位置添加了额外卷积获得的 2D 偏移,以实现采样网格的自由形式变形。通过学习到的偏移量,卷积的感受野和采样位置根据物体的随机尺度和形状进行自适应调整。可变形建模的精神已应用于许多任务,例如对象检测 [30, 34]、对象跟踪 [33] 和视频理解 [2, 29, 31]。 RepPoints [30] 将对象建模为一组点,并使用可变形卷积预测这些点到对象中心的偏移量。这种可变形的对象表示为对象检测和自适应语义特征提取提供了准确的几何定位。英等人。 [31]提出可变形3D卷积来探索时空信息并实现视频超分辨率的自适应运动理解。与这些方法不同,我们的 LFA 模块适应车道线的长结构,并通过车道感知可变形卷积将特征聚合范围限制在每条车道上的相邻点。
3. Method
我们提出的全球关联网络(GANet)的整体架构如图 2 所示。给定一个前视图像作为输入,采用 CNN 主干和 FPN [12] 颈部来提取多级视觉表示输入图像。为了更好的特征学习,在主干和颈部之间进一步插入了一个自注意力层[27],以获得丰富的上下文信息。在解码器中,利用关键点头和偏移头分别生成置信度图和偏移量图。两个头都由完全卷积层组成。我们进一步在关键点头部之前设计了一个车道感知特征聚合器模块,以增强相邻关键点之间的局部相关性,这有助于产生连续的车道线。对于每个车道实例,我们首先通过在偏移图上选择值小于 1 的点来获取其起点作为聚类质心。之后,将属于同一车道的关键点结合置信度图和偏移图聚集在采样的起点周围,构建完整的车道线。
3.1. Global Keypoint Association 全局关键点关联(GA)
3.1.1 Keypoint Estimation 关键点估计
给定输入图像
在训练阶段,我们在每条车道线上采样 K 个关键点作为 ground truth 关键点,然后使用非归一化高斯核
我们采用惩罚-减少焦点损失[13]来处理关键点区域和非关键点区域之间的不平衡,如下所示:
其中
由于输出步幅
3.1.2 Starting Point Regression 起点回归
为了区分不同的车道线,我们建议使用起点来唯一地表示每个车道实例,因为它的稳定性和彼此之间的最大边距。我们不是直接回归起点的绝对坐标
因此,我们可以生成形状为
为了估计偏移图
3.1.3 Lane Construction 车道构造

车道建设的流程如图 3 所示,其中包括获取所有可能的车道点的位置,然后将它们分组到不同的车道实例中。我们首先在关键点置信度图
为了获得每条车道的起点,我们在偏移图上选择值小于 1 的关键点作为候选起点。由于同一局部区域内可能存在多个符合上述标准的关键点,因此选择该区域的几何中心点以确保唯一性。通过这种方式,初步确定了所有车道的实例及其起点。
之后,我们根据关键点与相应起点之间的估计偏移量将其余关键点与它们所属的车道相关联,如图 3(b) 所示。每个关键点估计车道线起点的坐标如下:
3.2. Lane-aware Feature Aggregator 车道感知特征聚合器(LFA)

传统的二维卷积在固定的网格状区域内采样特征,不适合处理细长的车道线形状。受戴等人 [3] 的启发,我们提出了一个车道感知特征聚合器(LFA)模块,自适应地从车道上的相邻点收集信息,从而增强每个关键点的局部特征表示。我们的 LFA 模块的示意图如图 4 所示。以一个特定的关键点为例,我们首先使用一个卷积层来预测它与其在同一车道上包围的 M 个关键点之间的偏移量,如下所示:
为了增强 LFA 学习车道线局部形状的能力,我们进一步引入了一个辅助损失来监督偏移量

如图 5 所示,需要在
总损失函数是不同损失与相应系数的组合:
4. Experiments
在本节中,我们首先介绍我们方法的实验设置。下一小节讨论每个数据集的结果。每个模块的消融实验在最后小节中介绍。
4.1. Experimental Setting
4.1.1 Datasets and Evaluation Metrics
我们对两个流行的车道检测基准进行了实验,包括 CU Lane [18] 和 Tu Simple [26]。
CULane: CULane 数据集包含 88, 880 张训练图像和 34, 680 张测试图像,包括城市和高速公路场景。测试图像分为 9 种不同的场景。 F1度量是唯一用于评估的度量,它基于IoU。IoU大于0.5的预测车道被判断为真阳性(TP),否则为假阳性(FP)或假阴性(FN)。 F1 度量定义为准确率和召回率的调和平均值。
TuSimple: TuSimple 是一个真实的高速公路数据集,由 3, 626 张用于训练的图像和 2, 782 张用于测试的图像组成。 TuSimple dataset的主要评价指标是 accuracy ,公式如下:
4.1.2 Implementation Details
我们选择 ResNet-18、ResNet-34 和 ResNet-101 作为主干,形成三个不同版本的 GANet,分别称为 GANet-S、GANet-M 和 GANet-L。每个版本的详细信息如表 1 所示。我们首先在训练和测试阶段将输入图像的大小调整为 800 × 320。 LFA中的采样点数设置为 M = 9 。损失权重设置为

4.2. Quantitative Results
4.2.1 Results on CULane

CU Lane 测试集的结果如表 2 所示。我们的 GANet-L 在 CULane 数据集上以 79.63% 的 F1 分数和 63 FPS 达到了最先进的结果,超过了类似大小的模型,如 LaneATT-ResNet122,在性能和速度上都有很大的优势。与另一种基于关键点的方法 FOLOLane-ERF [21] 相比,我们的 GANet-S 实现了 78.79% F1 分数的可比性能,但运行速度提高了 3.8 倍,这显示了性能和效率之间的优越权衡,并证明了我们的全球协会制定的速度优势。此外,我们的方法在六个场景中获得了最高的 F1 分数,尤其是在曲线场景中。我们的 GANet-L 在这种情况下达到了 77.37%,并且优于之前最先进的方法 ERF-E2E [32],超过 5%,表明我们的方法在描述复杂车道线形状方面的优越性。
4.2.2 Results on TuSimple

TuSimple 测试集的比较结果如表 3 所示。我们的 GANet-S 优于所有其他方法,在高 FPS 的情况下达到了 97.71% 的最高 F1 分数。值得注意的是,GANet-S 超过了 UFast-ResNet34 和 LaneATT-ResNet34,它们的速度相似且差距很大,显示了我们全球关联制定的巨大潜力。与 LaneATT [25] 类似,扩大模型容量并不一定会带来性能提升。可能是因为 TuSimple 数据集数量少,场景单一。结果已经饱和,更大的模型可能会导致过拟合问题。
4.2.3 Ablation Study
为了探索我们提出的 LFA 模块的特性,我们对 CULane 数据集进行了消融研究。以下所有实验均基于 GANet 的小版本。结果如表 4 所示。第一行显示没有我们的 LFA 模块的基线方法。在第二行中,LFA 模块被集成到 GANet 中,没有辅助损失。最后一行显示了我们整个 GANet 的结果。

从前两行我们可以观察到没有辅助损失的 LFA 模块对于车道线检测是有效的,这是由于上下文的灵活集成。对比最后两行,我们还可以发现,辅助损失对 LFA 模块至关重要,可以引导 LFA 将注意力集中在车道线上的关键信息上。可视化分析在第 4.3 节中进行。
4.3. Qualitative results
我们在图 6 中可视化了使用 LFA 的定性结果。第 2 列和第 4 列是相应地没有和使用 LFA 的置信度图的可视化。如第一行的结果所示,由于预测的车道点相互增强,LFA 模块即使在车辆遮挡的情况下也能做出正确的预测。从第二行和第三行的结果也可以得出结论,LFA 模块能够抑制可能由全局注意力引入的背景噪声。

为了直观地研究 LFA 模块的属性,我们在图 7 中可视化了预测的特征聚合点。第一行显示了一个常见的直线车道情况。通过添加辅助损失,LFA 模块可以预测车道线周围的聚合点。同时,预测的聚合点是不规则的,没有辅助损失。最后两行显示弯曲车道案例中的聚合点。证明了 LFA 模块在理解车道线的局部结构方面是稳健的。该属性有助于增强车道线特征和抑制背景噪声。
5. Conclusion and Discussion
在本文中,我们提出了一个全球关联网络(GANet)从一个新的角度来制定车道检测问题,其中每个关键点直接回归到车道线的起点,而不是逐点扩展。关键点与所属车道线的关联是通过全局预测其与车道对应起点的偏移量来进行的,大大提高了有效性。我们进一步提出了一种车道感知特征聚合器(LFA)来自适应地捕获相邻关键点之间的局部相关性以补充局部信息。实验结果表明,我们的 GA 网络以更高的速度优于以前的方法。
Limitation. 我们方法的局限性在于,由于偏移量的绝对值很大,当输出步幅设置为 1 时,到起点的偏移量可能会变得难以回归。未来,我们希望通过多级回归来解决这个问题,以减轻回归难度。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!