论文阅读笔记-MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction
MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction
MapTR:用于在线矢量高清地图构建的结构化建模和学习
ABSTRACT
我们提出了 MapTR ,一个结构化的端到端框架,用于高效的在线矢量高清地图构建。我们提出了一种统一的基于包络的建模方法,即把地图元素建模为具有一组等价包络的点集,这就避免了地图元素定义的模糊性,简化了学习。我们采用分层查询嵌入方案来灵活编码结构化的地图信息,并对地图元素的学习进行分层双比特匹配。MapTR 在 nuScenes 数据集上实现了现有矢量地图构建方法中最好的性能和效率。特别是,MapTR-nano 在 RTX 3090 上以实时推理速度(25.1 FPS)运行,比现有最先进的基于摄像头的方法快 8 倍,同时实现了 3.3 倍的 mAP 。MapTR-tiny 的速度明显超过现有的最先进的多模态方法,达到 13.5 mAP ,同时速度更快。定性结果表明,MapTR 在复杂的各种驾驶场景中保持了稳定和强大的地图构建质量。丰富的演示可在 github ,以证明其在真实世界场景中的有效性。MapTR 在自动驾驶方面有很大的应用价值。我们将发布代码以促进进一步的研究和应用。
1 INTRODUCTION
高清地图包含丰富的道路拓扑和交通规则的语义信息,是自动驾驶系统不可缺少的基本组成部分。传统的高清地图是通过基于 SLAM 的方法离线构建的,产生了高的维护成本和可扩展性问题。最近,在线高清地图的构建吸引了越来越多的兴趣,它在运行时通过车载传感器构建自我车辆周围的地图,摆脱了离线的人力努力。
车道检测可以被看作是高清地图构建的一个子任务。相关工作利用先验来感知基于前视图像的开放形状的车道。他们仅限于单视角的感知,无法应对其他具有动态形状的地图元素。随着鸟瞰图(BEV)表示学习的发展,最近的工作通过执行BEV语义分割来预测光栅化地图。然而,光栅化地图缺乏矢量的实例级信息,如车道结构,这对下游任务(如运动预测和规划)很重要。为了构建矢量化的高清地图,HDMapNet 将像素化的分割结果进行后处理,这是很复杂和耗时的。为了避免后处理,VectorMapNet 将每个地图元素表示为一条有方向的折线,并利用自动回归解码器依次预测折线的下一个点。尽管VectorMapNet 具有良好的性能,但它也有自己的问题:(1)用有向折线表示地图元素,并按顺序预测点,会招致定义的模糊性(参考图2)。这样的建模要求所有的地图元素都有明确的起始点和方向的定义。然而,对于封闭形状的元素(如行人过街)和一些线条元素(如对向车道之间的分隔线),没有合理的标准来定义起点和方向。(2) VectorMapNet 以递归的方式预测点,并采用从粗到细的级联框架,导致推理时间较长,对实时场景的扩展性有限。(3) 自动回归解码器的递归性带来了累积误差的问题,需要更长的训练周期来收敛。
在基于排列组合的建模基础上,MapTR 建立了一个结构化的地图学习框架。MapTR 将在线矢量高清地图构建视为一个平行回归问题。采用分层查询嵌入来灵活地编码实例级和点级信息。通过统一的 Transformer 结构,对所有的实例和实例的所有点同时进行预测。而 MapTR 将训练管道制定为一个层次化的集合预测任务。我们进行层次化的双点匹配,依次分配实例和点。
MapTR 在 nuScenes 数据集上实现了现有矢量地图构建方法中的最佳性能和效率。特别是,MapTR-nano 在 RTX 3090 上以实时推理速度(25.1 FPS)运行,比现有最先进的基于摄像头的方法快 8 倍,同时实现了 3.3 倍的 mAP。MapTR-tiny 在速度更快的同时,明显优于现有最先进的多模态方法,达到 13.5 mAP。如图所示(图1),MapTR 在复杂多样的驾驶场景中保持了稳定和稳健的地图构建质量。它在自动驾驶中具有重要的应用价值。
我们的贡献可以总结如下:
- 我们提出了一种统一的基于包络的地图元素建模方法,即把地图元素建模为具有一组等价包络的点集,这就避免了地图元素定义的模糊性并简化了学习。
- 基于这种新颖的建模方式,我们提出了MapTR,一个结构化的端到端框架,用于高效的在线矢量高清地图构建。我们引入了分层查询嵌入方案来灵活地编码实例级和点级信息,并对地图元素的学习进行分层双点匹配。
- MapTR是第一个实时和SOTA矢量化的高清地图构建方法,在复杂的各种驾驶场景中具有稳定和强大的性能。它在自动驾驶中具有重要的应用价值。
2 MAPTR
2.1 PERMUTATION-BASED MODELING 基于排列组合的建模
MapTR 旨在以结构化的方式对高清地图进行建模和学习。高清地图是静态地图元素的集合,包括人行横道、车道分隔线、道路边界等。为了进行结构化建模,MapTR 从几何学角度将地图元素抽象为封闭形状(如人行横道)和开放形状(如车道分隔线)。通过沿形状边界依次取样,封闭形状的元素被离散为多边形,而开放形状的元素被离散为多段线。
初步来说,多边形和折线都可以表示为一个有序的点集
为了弥补这一差距,MapTR 用
具体来说,对于折线元素(见图3(左)),
对于多边形元素(见图3(右)),
通过引入等价互换的概念,MapTR 以统一的方式对地图元素进行建模,避免了模糊性问题。在这种建模的基础上,MapTR 进一步引入了层次化的双字节匹配(见第2.2节和第2.3节),用于地图元素的学习,并采用结构化的编码器-解码器 Transformer 架构来有效预测地图元素(见第2.4节)。
2.2 HIERARCHICAL MATCHING 分层匹配
MapTR 按照 DETR(Carion等人,2020年)的端到端范式,在一个单程中平行推导出一个固定大小的
Instance-level Matching.(实例级匹配) 首先,我们需要在预测地图元素
Point-level Matching.(点级匹配) 在实例级匹配之后,每个预测的地图元素
2.3 END-TO-END TRAINING
MapTR 是根据最优的实例级和点级分配(
其中λ、α和β是平衡不同损失项的权重。
Classification Loss. 根据实例级的最佳匹配结果
Point2point loss. Point2point loss 旨在限制每个预测点的位置。对于每个索引为
Edge Direction Loss. Point2point 损失只限制了折线和多边形的节点点,没有考虑边缘(相邻点之间的连接线)。为了准确表达地图元素,边缘的方向很重要。因此,我们进一步设计了边缘方向损失,以限制较高边缘层次的几何形状。具体来说,我们考虑成对的预测边缘
2.4 ARCHITECTURE
MapTR 采用了编码器-解码器的范式。图 4 描述了整体结构。
Input Modality.(输入模式) 在这项工作中,我们专注于基于摄像头的 MapTR。MapTR 与各种机载传感器(照相机、LiDAR 和 RADAR)兼容。将 MapTR 扩展到多模态数据是直接和微不足道的,这将在未来的工作中提出。而且,由于基于合理的排列组合的建模,即使只有相机输入,MapTR 也明显优于其他多模态输入的方法。
Map Encoder.(地图编码器) MapTR 的编码器从原始传感器数据中提取特征,并将传感器特征转换为统一的特征表示,即 BEV 表示。对于基于相机的 MapTR,给定多视角图像
Map Decoder.(地图解码器) 我们采用分层查询嵌入方案对每个地图元素进行明确编码。具体来说,我们定义了一组实例级查询
地图解码器包含几个级联的解码层,这些解码层迭代地更新分层查询。在每个解码层中,我们采用 MHSA 来使层次查询相互交换信息(包括实例间和实例内)。然后,我们采用 Deformable Attention,使分层查询与 BEV 特征互动,其灵感来自 BEVFormer。每个查询
地图元素通常具有不规则的形状,需要长距离的背景。每个地图元素对应于一组参考点
MapTR 的预测头很简单,由一个分类分支和一个点回归分支组成。分类分支预测实例类别得分。点回归分支预测点集
3 EXPERIMENTS
Dataset and Metric.(数据集和度量) 我们在流行的 nuScenes 数据集上评估了 MapTR,该数据集包含 1000 个场景,每个场景大约持续 20 秒。关键样本的注释频率为 2Hz。每个样本都有来自 6 个摄像头的 RGB 图像,涵盖了自我车辆的 360° 水平视野。按照以前的方法,选择了三种地图元素进行公平评估--行人过街、车道分隔线和道路边界。X轴的感知范围为[-15.0m, 15.0m],Y轴的感知范围为[-30.0m, 30.0m]。而我们采用平均精度(AP)来评价地图构建质量。倒角距离
Implementation Details.(实施细节) MapTR 是用 8 个 NVIDIA GeForce RTX 3090 GPU 训练的。我们采用 AdamW 优化器和余弦退火计划。初始学习率被设置为 6e-4。对于 MapTR-tiny,我们采用 ResNet50 作为骨干。我们将每个 BEV 网格的大小设置为 0.3 米,并堆叠 6 个 transformer 解码器层。我们训练 MapTR-tiny,总批次大小为 32(包含6个视图图像)。所有的消融研究都是基于用 24 个 epochs 训练的 MapTR-tiny。MapTR-nano 是为实时应用而设计的。我们采用 ResNet18 作为骨干。我们将每个 BEV 网格的大小设置为 0.75 米,并堆叠 2 个 transformer 解码器层。我们训练 MapTR-nano 的总批次大小为 192。至于损失权重的超参数,λ 被设置为 2,α 被设置为 5,β 被设置为 5e-3。所有的源代码和模型都将在https://github.com/hustvl/MapTR,供公众使用。
3.1 COMPARISONS WITH STATE-OF-THE-ART METHODS
在表 1 中,我们将 MapTR 与最先进的方法进行比较。MapTR-nano 在 RTX 3090 上以实时推理速度(25.1 FPS)运行,比现有的最先进的基于摄像头的方法(VectorMapNet-C)快8倍,同时实现了 3.3 倍的 mAP。MapTR-tiny 明显优于现有的最先进的多模态方法(VectorMapNet-C&L),在速度更快的同时,获得了 13.5 个 mAP。
3.2 ABLATION STUDY 消融研究
Modeling Method.(建模方法) 在表 2 中,我们提供了消融实验来验证所提出的基于包络建模的有效性。与对点集施加唯一包络的香草建模方法相比,基于包络的建模方法解决了地图元素定义的模糊性,并带来了 5.9mAP 的改进。对于人行横道,改进甚至达到 11.9AP,证明了多边形元素建模的优越性。
2D-to-BEV Transformation.(2D到BEV的转换) 在表 3 中,我们对二维到 BEV 的转换方法进行了消减。我们使用了 LSS 的优化实现。而为了与 IPM 和 LSS 进行公平的比较,GKT 和 Deformable Attention 都采用了单层配置。消融结果表明,MapTR 与各种 2D-to-BEV 方法兼容,并取得了稳定的性能。考虑到 GKT 的易部署性和高效率,我们将其作为 MapTR 的默认配置。
Point Number.(点的数量) 关于每个地图元素建模的点的数量,在表 4 中列出。太少的点不能描述地图元素的复杂几何形状。太多的点会影响效率。我们采用 20 个点作为 MapTR 的默认设置。
Decoder Layer Number.(解码器层数) 关于地图解码器的层数的消减情况见表 5。地图构建性能随着层数的增加而提高,但当层数达到 6 时就会饱和。
Position Matching Cost.(位置匹配成本) 如第 2.2 节所述,我们在实例级匹配中采用了位置匹配成本术语
Edge Direction Loss.(边缘方向损失) 关于边缘方向损失的权重,在表 7 中列出。
3.3 QUALITATIVE VISUALIZATION 定性可视化
我们在图 1 中展示了复杂和各种驾驶场景的预测矢量高清地图结果。MapTR 保持了稳定和令人印象深刻的结果。更多的定性结果在附录中提供。
4 RELATED WORK
高清地图构建。 高清地图对于自动驾驶汽车至关重要。最近,随着2D-to-BEV方法的发展(Ma等人,2022),高清地图的构建被表述为一个基于车载摄像机拍摄的环视图像数据的分割问题。Chen等人(2022b);Zhou & Kr¨ahenb¨uhl(2022);Hu等人(2021);Li等人(2022c);Philion & Fidler(2020);Liu等人(2022b)通过进行BEV语义分割生成光栅化地图。为了建立矢量高清地图,HDMapNet(Li等人,2022a)将像素化语义分割的结果与启发式的、耗时的后处理相结合,生成实例。为了消除后处理,VectorMapNet(Liu等人,2022a)采用了一个两阶段的管道。第一阶段利用集合预测方法检测粗略的关键点,第二阶段利用序列生成方法依次预测地图元素的下一个点。与VectorMapNet不同的是,MapTR引入了新颖、统一的地图元素建模,解决了定义模糊的问题,便于学习。而且,MapTR建立了一个结构化的、并行的单阶段框架,效率更高。
车道检测。 车道检测可以被看作是高清地图构建的一个子任务,其重点是检测道路场景中的车道元素。由于大多数车道检测的数据集只提供了单视图注释,并关注开放形状的元素,因此相关方法仅限于单视图。LaneATT(Tabelini等人,2021年)利用基于锚的深度车道检测模型,在准确性和效率之间实现了良好的权衡。LSTR(Liu等人,2021a)采用Transformerarchitecture,直接输出车道形状模型的参数。GANet(Wang等人,2022)将车道检测制定为一个关键点估计和关联问题,并采取了自下而上的设计。Feng等人(2022)提出了基于参数化贝塞尔曲线的车道检测方法。Garnett等人(2019)提出了3D-LaneNet,该方法在BEV中执行3D车道检测,而不是在2D图像坐标中检测车道。STSU(Can等人,2021)将车道表示为BEV坐标中的有向图,并采用基于曲线的贝塞尔方法来预测单眼摄像机图像中的车道。Persformer(Chen等人,2022a)提供了更好的BEV特征表示,并优化了anchor设计以同时统一二维和三维车道检测。MapTR可以通过一个统一的建模和学习框架来感知360水平视角的各种地图元素,而不是只在有限的单视角中检测车道。
基于轮廓的实例分割。 与MapTR相关的另一项工作是基于轮廓的二维实例分割(Zhu等人,2022;Xie等人,2020;Xu等人,2019;Liu等人,2021b)。这些方法将二维实例分割重新定义为物体轮廓预测任务,并估计轮廓顶点的图像坐标。CurveGCN(Ling等人,2019)利用图形卷积网络来预测多边形边界。Deepsnake(Peng等人,2020)提出了两阶段的轮廓进化过程,并设计了循环卷积来利用轮廓上的特征。BoundaryFormer(Lazarow等人,2022)引入了基于多边形的可分化栅格化来直接预测物体的边界。与这些基于单视角图像的二维实例分割工作不同,MapTR是为驾驶场景下的高清地图构建而定制的。基于3D场景的先验知识,MapTR对各种地图元素进行了统一的抽象和建模,即一个具有一组等价排列的点集。并为高效的地图元素学习引入了一个结构化框架。
5 CONCLUSION
MapTR 是一个结构化的端到端框架,用于高效的在线矢量高清地图构建,基于所提出的基于排列组合的建模。丰富的可视化结果证明,MapTR 在各种驾驶场景下都能很好地工作,具有很大的实用价值。我们希望 MapTR 能够成为自动驾驶系统的基本模块,并推动下游任务(如运动预测和规划)的发展。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!