增强自动驾驶的安全性和可解释性:InterFuser大有可为

介绍一下OpenDILab团队最新提出的自动驾驶策略InterFuser(Interpretable Sensor Fusion Transformer)。该策略基于Transformer进行多传感器融合的和使用可解释性特征增加自动驾驶的安全性,在最新的CARLA Leaderboard排行榜中取得了世界第一名的好成绩(截止至今)。

该策略基于Transformer进行多传感器融合,另外也使用了可解释性特征来增加自动驾驶的安全性。

 

 

 

近年来,自动驾驶领域相关的技术取得了快速的发展,而距离自动驾驶车辆在公共道路上真正落地部署仍有一段比较长的距离。其中的问题主要体现在高交通密度的场景中,这些场景有大量的障碍物和动态物体参与决策。在这些情况下,目前部署的系统可能表现出不正确或意外的行为,导致灾难性的事故。

我们认为导致以上安全问题的两个主要挑战是:

1)如何识别长尾分布的罕见不安全事件,如行人突然从路边出现,通过路口时遭遇意外车流(闯红灯等),这需要更好地理解多模态多视角传感器输入下的场景;

2)如何验证决策系统的安全性,换句话说,识别决策系统输出的意图和行为,以及识别故障情况和故障原因,这需要决策系统的可解释性。

从以上挑战出发,OpenDILab提出了InterFuser这一端到端自动驾驶策略,该策略基于Transformer进行多传感器融合,另外也使用了可解释性特征来增加自动驾驶的安全性,可以成功地缓解上述问题。InterFuser在多个benchmark上均取得了SOTA的性能结果,在最新的CARLA Leaderboard排行榜中获得了第一。其性能远超大多数方法,同时也没有使用多模型ensemble的技术。

CARLA Leaderboard[1]是一个由CARLA官方主办的用来评估智能体在实际交通情况下的驾驶能力的排行榜。

在测试过程中,智能体会经历不同的天气、光照条件与行驶路线的评估。并且在行驶过程中会遭遇各种突发的交通状况,比如行人横穿马路以以及通过路口时遭遇闯红灯的车辆等。其评测过程建立在用于自动驾驶研究的开源模拟器CARLA[2]上。

 

InterFuser自动驾驶策略介绍

InterFuser策略的框架示意图

InterFuser 自动驾驶策略首先使用CNN网络从多模块多视角传感器输入中提取特征。这些特征会在Transformer Encoder中进行融合,融合过后的特征会作为后续Transformer Decoder模型的Value。


三种类型的query会被送入Transformer解码器以分别预测航点、物体密度图和交通信息。最后,我们通过从预测的物体密度图中恢复交通场景,利用Track技术获得场景中其他对象的未来预测位置等信息。


基于这些信息,应用一个安全控制器来确保在智能体复杂交通情况下的安全和高效驾驶。下面我们将分模块进行详细介绍。

1. 模型输入与输出

本研究在该策略中使用了四个传感器,包括三个RGB相机(左、前、右)和一个LiDAR传感器。除了左、前、右的图像输入外,还设计了一个聚焦视图的图像输入,可以通过裁剪原始正面RGB图像的中心部位来捕捉远处交通灯的状态。对于LiDAR点云,将LiDAR点云数据转换为二维鸟瞰图(BEV)网格上的2维直方图,从而得到一个双通道LiDAR鸟瞰图投影图像输入。

InterFuser产生两种类型的输出:安全不敏感和安全敏感的输出。其中安全不敏感的输出包含一条有10个航点的路径,供驾驶车辆转向。它负责规划车辆的未来驾驶路线。安全敏感的输出包含前方的物体密度图和交通信息。

物体密度图M∈R×R×7为检测到的对象提供7个特征,如车辆、行人和自行车。

表示一个1米×1米的网格区域,由空间坐标(i,j)索引,其中自动驾驶车辆被当作原点,Y轴为前进方向。检测区域覆盖了自动驾驶车辆前方的R米和其两侧的R米范围。物体密度图的7个通道分别是对象存在的概率、从1米×1米网格中心的2维偏移量、物体边界框的大小、物体的方向和物体的速度。此外,我们的方法还同时预测了交通规则信息,包括交通灯状态、前方是否有停车标志以及自动驾驶车辆是否处在路口等。

2. 模型结构

本模型的结构使用CNN作为骨干网络,主要负责提取不同模态不同视角的图像特征。这些特征在加上位置编码和视图编码之后被送入Transformer的encoder网络进行特征融合。经过encoder网络融合之后的特征被视作values送入后续的Transformer的decoder网络。

在decoder网络中,我们设计了三种类型的queries:L个航点queries,

个密度图queries和一个交通规则query。在每个解码器层中,我们采用这些query,通过注意机制来提取多模态和多视图特征中的空间信息。为了将decoder网络中提取得到的三种类型的特征转化为相应的具有实际意义的数值,我们在此之后应用了一些预测头。其中航点使用GRU网络进行预测,而密度图查询和交通规则查询使用MLP网络进行预测。

3. 安全控制器

有了从Transformer decoder网络输出的航点和中间可解释特征(物体密度图和交通规则),我们就能把自动驾驶车辆的动作约束在安全集里。具体来说,我们使用PID控制器来获得两个低层次的动作。横向转向动作是车辆所需对准的方向。纵向加速动作的目的使自动驾驶车辆的速度接近期望速度 Vd 。 Vd 的确定需要考虑到周围的物体以确保安全,为此我们使用物体密度图完成此目标。

物体密度图M∈R×R×7的网格中的物体由物体存在概率、与网格中心的二维偏移量、二维边界框和运动方向描述。一旦满足以下条件之一,我们就认为该网格中存在一个物体。

1)如果物体在网格中的存在概率高于一个较高的阈值;

2)如果物体在网格中的存在概率是周围网格的局部最大值,并且大于一个较低的阈值。

除了物体的当前状态外,安全控制器还需要考虑它们的未来轨迹。我们首先设计一个跟踪器来监测和记录它们的历史动态。然后,我们通过用滑动平均法将其历史动态向后传播来预测其未来轨迹。

有了对自动驾驶车辆周围场景的恢复和对这些物体运动状态的未来预测,我们就可以得到自动驾驶车辆在时间步长t内可以行驶的最大安全距离,然后通过将其转化为线性规划问题来得到具有增强安全性的理想速度。

我们同时考虑了物体的形状,并考虑了车辆性能限制和车辆的动态约束。除了物体密度图,预测的交通信息也被用于安全驾驶。如果交通信号灯不是绿灯或前方有停车标志,自动驾驶车辆将执行紧急停车动作。

实验效果

评价指标(Metrics)

CARLA Leaderboard中使用的三个指标被来评估自动驾驶智能体的性能:路线完成率(RC)、违规惩罚系数(IS)、以及驾驶得分(DS)。路线完成率是指完成路线的百分比。违规惩罚系数是一个折扣系数。当车辆违章或违反交通规则时(包含与车辆或者行人相撞),违规惩罚系数将以相应的百分比递减。驾驶分数是路线完成率和违规惩罚系数的乘积,因此是一个更全面的指标,可以描述驾驶进度和安全性能。

与SOTA的比较

1) CARLA Leaderboard

在CARLA Leaderboard的评测中,自动驾驶车辆要求沿着一系列稀疏的导航点到达终点,并在行驶过程中尽可能地遵守交通规则并避免发生碰撞。在自动驾驶车辆行驶过程中CARLA Leaderboard会在环境中构建一些预测的交通场景,包含行人横穿马路,车辆通过无保护交通路口时遭遇侧向车流等。


InterFuser策略在该榜单中获得了第一名的DS,在保持相当低的事故发生率的同时取得了较高的道路完成率。

 

CARLA Leaderboard性能比较

2) Town05 Benchmark

Town05 Benchmark 是TransFuser[3]论文中使用的性能测试benchmark。


该benchmark包括两个评估setting:


Town05 Short:10条100-500米的短路线,每条包括3个交叉口;


Town05 Long:10条1000-2000米的长路线,每条包括10个交叉口。我们也在该benchmark中取得了最好的成绩,并大幅超过其他的工作。

 

Town05 Benchmark性能比较

3) CARLA 42 routes Benchmark

CARLA 42 routes benchmark [4] 覆盖了六个城镇,涵盖了各种区域,如美国式交叉口、欧盟式交叉口、高速公路、环形交叉口、停车标志、城市场景和住宅区。每个城镇的交通密度被设定为与繁忙的交通环境相当。我们也在该benchmark中取得了最好的成绩,并大幅超过其他的工作。

 

CARLA 42 routes Benchmark性能比较

Ablation分析

不同Sensor输入组合对模型性能的影响如下表所示,F,LR, Fc, Li 分别代表前视图、左视图及右视图、聚焦视图和LiDAR输入。可以发现缺少聚焦视图会大幅降低对红绿灯的判断准确率,缺少左右视图会大幅降低对行人的判断准确率。这是由于很多行人会从道路两侧突然出现,仅仅通过前视图不能很好地捕捉行人动态。

不同Sensor输入组合的Ablation实验

 

不同模型结构设计的Ablation实验


可视化分析

物体密度图Query和来自不同视图的特征之间注意力权重的可视化

结语

人类自诞生以来就存在着从A点到B点的移动需求,从转动的车轮、马车到汽车,从航海到航空,我们一直都在探索着更高效更快速的出行方式。而自动驾驶技术正是人类在智能交通领域正在探索的一个重要发展方向。


OpenDILab本次发布的InterFuser自动驾驶策略,通过多模态传感信息融合,大幅度地提高端到端驾驶的安全性和可解释性,为解决当下自动驾驶技术在公共道路上实际部署时面临的两个痛点提供了可行的解决方案。


同时,OpenDILab也正在多个维度为解决自动驾驶的落地而努力。目前我们开源了决策AI自动驾驶仿真训练平台DI-drive,同时配备开发了一套贴近现实的自动驾驶环境Casezoo,交通信号控制决策AI平台DI-smartcross。


欢迎大家体验我们的repo!


参考文献:

[1] 
[2] 
[3] 
[4]

posted @ 2022-08-09 21:45  OpenDILab  阅读(784)  评论(0编辑  收藏  举报