多传感器后融合技术
多传感器后融合技术
1.多传感器后融合技术
后融合技术:每个传感器都独立地输出探测数据信息,在对每个传感器的数据信息进行处理后,再把最后的感知结果进行融合汇总。
图1.后融合结构
2.1 Ulm自动驾驶:模块化的融合方法
Ulm大学自动驾驶项目提出了一种模块化的、传感器独立的融合方法,允许高效的传感器替换,通过在网络映射、定位和追踪等关键模块中使用多种传感器来确保信息冗余性。该算法主要对雷达、摄像头、激光扫描仪三种传感器的探测信息进行融合,三台IBEO LUX激光扫描仪安装在前保险杠上,摄像头安装在挡风玻璃后面,并配备了多台雷达。
上图说明:
蓝色:摄像头视野范围;
红色:激光扫描仪感知范围;
绿色:雷达感知范围;
该算法提出了一个分层模块化环境感知系统(HMEP),包含三个感知层:网格映射、定位和目标跟踪;
图2.分层模块化环境感知系统结构
每个感知层都会进行传感器融合,并产生一个环境模型结果;除了传感器数据外,感知层还可以使用上一层的结果,其顺序是按照环境模型元素的抽象级提高的;不同的感知层结果可能是冗余的,甚至是矛盾的,因此组合模型将所有结果组合到一个统一的环境模型中。
网格映射层
图3.网格映射层结构
网格映射层将周围环境划分为单个网格单元,并根据经典的占用网格映射方法来估计每个单元在网格图中的占比状态,输出结果为每个单元格的占比概率;组合模块主要使用其输出信息来预测目标物体边界;
具体:基于传感器数据,逆传感器模型可以预测每个单元格占比概率,被称为测量网格;映射算法通过使用二进制贝叶斯滤波器更新测量网格的网格映射,并将多传感器数据融合到网格映射层中。
定位层
图3.定位层结构
定位层融合传感器探测数据、网格层信息和数字地图,输出带有自定位信息的数字地图;
具体:在由三个激光扫描仪构建的网格图中利用极大稳定极值区域(Maximally Stable Extremal Regions,MSER)提取特征,网格图中的特征包括树干、路标等;基于特征图显示,定位层利用蒙特卡罗定位(Monte-Carlo Localization,MCL)方法来预测目标姿态。
跟踪层
图3.跟踪层结构
跟踪层通过将雷达、摄像头、激光雷达的探测数据进行集中式融合实现对周围环境中移动物体的感知,还可以利用来自网格映射层和定位层的信息获取目标朝向、最大速度等信息,从而完成多目标跟踪任务。
融合模块通过使用带有标签的多伯努利(Labeled Muti-Bernouli,LMB)滤波器实现,输出一个包含目标轨迹空间分布和存在概率的列表;跟踪层使用DempsterShafer方法实现传感器融合感知,能有效发挥各传感器的优势,避免因传感器的限制而导致的失败;
小结
该算法提出,对于未来自动驾驶感知系统来说,其关键技术是在不改变融合系统核心的情况下更换传感器的能力;每个感知层都提供一个通用传感器接口,其可以在不改变感知系统融合核心的前提下合并额外的传感器或替换现有的传感器。
其提出的模块化的结构有助于传感器的更换,且传感器独立接口在网络映射、定位和跟踪模块的应用使得修改传感器设置不需要对融合算法进行任何调整。
2.2 FOP-MOC模型
Chavez-Garcia等人提出了FOP-MOC模型,将目标的分类信息作为传感器融合的关键元素,以基于证据框架的方法作为传感器融合算法,着重解决了传感器数据关联、传感器融合的问题。
图3.不同级别的融合方式
低层融合在SLAM模块中执行;检测层融合了各个传感器检测到的目标列表;跟踪层融合了各个传感器模块追踪目标的轨迹列表,以生成最终结果。FOP-MOC在检测层进行传感器融合来提高感知系统的感知能力。
图3.FOP-MOC模型结构
多传感器前融合技术
3.多传感器前融合技术
前融合技术:指在原始数据层面,把所有传感器的数据信息进行直接融合,然后根据融合后的数据信息实现感知功能,输出一个结果层的探测目标。
常见的基于神经网络的融合方法,如:MV3D(Multi-View 3D Object Detection)、AVOD(Aggregate View Object Detection)、F-PointNet(Frustum PointNets for 3D Object Detection)等。
3.1 MV3D
MV3D将激光雷达探测的点云数据和可见光摄像头拍摄的RGB图像进行融合,其输入数据为激光雷达投影的鸟瞰图(LIDAR bird view)、前视图(LIDAR front view)和二维RGB图像,其网络结构主要有三维区域生成网络(3D proposal network)和基于区域的融合网络(region-based fusion network),使用深度融合(deep fusion)方式进行融合,如下图:
激光雷达点云数据是一个无序的数据点构成的集合,在用设计好的神经网络模型处理点云数据前,为了更加有效保留三维点云数据的信息,方便处理,MV3D将点云数据投影到特定的二维平面,得到鸟瞰图和前视图。
3D proposal network,类似于Faster-RCNN检测模型中应用的区域生成网络(Region Proposal Network,RPN),并在三维推广,实现的一个功能就是生成目标的三维候选框;这部分功能在鸟瞰图中完成,鸟瞰图的各个目标遮挡较少,候选框提取的效率最好。
在提取候选框后,分别向三种图中进行映射,得到各自感兴趣区域(Region of Interest,ROI),进入region-based fusion network进行融合;在融合方式选择上,有:早期融合(early fusion)、后期融合(late fusion)、深度融合(deep fusion),三种方式对比如下图:
3.2 AVOD
AVOD是一种融合激光雷达点云数据及RGB图像信息的三维目标检测算法,其输入只有激光雷达生成的鸟瞰图(Bird’s Eye View,BEV)Map和摄像头采集的RGB图像,舍弃了激光雷达前向图(Front View,FV)和BEV中的密度特征(intensity feature),如下图所示:
图 3 AVOD结构图
对输入数据,AVOD先进行特征提取,得到两种全分辨率的特征映射,输入到RPN中生成没有朝向的区域建议,最后挑选出合适的提议候选送入到检测网络生成带有朝向的三维界框,完成目标检测任务;AVOD存在两处传感器数据融合:特征融合和区域建议融合。
上图说明:上图是AVOD特征提取网络,使用了编码器-解码器(encoder-decoder)结构,每层解码器先对输入进行上采样,然后与对应编码器的输出串联,最终通过一个3×3的卷积进行融合;该结构可以提取到分辨率的特征映射,有效避免了小目标物体因为下采样在输出的特征映射上所占像素不足1的问题,最终输出的特征映射既包含底层细节信息,又融合了高层语义信息,能有效提高小目标物体的检测结果。
上图说明:上图是三种边界框编码方式,从左到右依次是:MV3D、轴对齐、AVOD的三维边界框编码方式,与MV3D指定八个顶点坐标的编码方式相比,AVOD利用一个底面和高度约束了三维边界框的形状,且只用一个10维的向量表示即可,MV3D需要24维的向量表示。
3.3 F-PointNet
F-PointNet结合成熟的二维图像中的目标检测方法来对目标进行定位,得到对应三维点云数据中的视锥体(frustum),并对其进行边界框回归从而完成检测任务,如下图所示:
F-PointNet整个网络结构由三部分组成:视锥体(frustum proposal)、三维实例分割(3D instance segmentation)、三维边界框回归(amodal 3D box estimation);网络结构如下图所示:
F-PointNet利用RGB图像分辨率高这一优点,采用基于FPN的检测模型先得到目标在二维图像上的边界框,然后按照已知的摄像头投影矩阵,将二维边界框提升到定义了目标三维搜索空间的视锥体,并收集截体内的所有点构成锥体点云;
上图说明:图(a)是摄像头坐标系,图(b)是锥体坐标系,图( c )是三维掩膜局部坐标系,图(d)是T-Net预测的3D目标坐标系;为了避免遮挡和模糊问题,对锥体点云数据,F-PointNet使用PointNet(或PointNet++)模型进行实例分割;在三维空间中,物体间大都是分离的,三维分割更可靠;通过实例分割,可以得到目标物体的三维掩膜(即属于该目标的所有点云),并计算其质心作为新的坐标原点,如图( c )所示,转换为局部坐标系,以提高算法的平移不变性;最后,对目标点云数据,F-PointNet通过使用带有T-Net的PointNet(或PointNet++)模型进行回归操作,预测目标三维边界框的中心、尺寸和朝向,如图(d)所示,最终完成检测任务;T-Net的作用是预测目标三维边界框真实中心到目标质心的距离,然后以预测中心为原点,得到目标坐标系。
小结:
F-PointNet为了保证每个步骤点云数据的视角不变性和最终更加准确地回归三维边界框,共需要进行三次坐标系转换,分别是视锥体转换、掩膜质心转换、T-Net预测。
FOP-MOC模型,融合模型的输入信息有:雷达、摄像头、激光雷达的检测目标列表,输出结果为融合后的目标检测信息,并送入到跟踪模块中;雷达和激光雷达的探测数据主要用于移动目标检测,摄像头采集的图像主要用于目标分类,每个目标都由其位置、尺寸、类别假设的证据分布来表示,类别信息是从检测结果中的形状、相对速度和视觉外观中获得的。
多传感器融合技术
自动驾驶系统由环境感知、规划、决策、控制等几个模块组成,其中环境感知需要用到诸如摄像头、毫米波雷达、激光雷达等传感设备来获取周围环境的信息。不同种的传感器有着不同的优势与缺陷,为了使感知层获得的信息更为丰富、准确,通常需要将不同的传感器进行融合。本文着重介绍多传感器融合的概念与相关知识,不具体介绍技术细节。
1. 运动感知类与环境感知类传感器
自动驾驶中的传感器一般分为运动感知类传感器与环境感知类传感器。运动感知类传感器主要用以解决自动驾驶中的定位与建图问题。常见的传感器有全球定位系统(GNSS,Global Navigation Satellite System)、RTK(Real-Time Kinematic)、惯性传感器IMU(IMU,Inertial Measurement Unit)、轮速计(Wheel Speedometer)、激光雷达(LiDAR,Light Detection and Ranging)、相机(Camera)。
环境感知类传感器在自动驾驶中一般用于感知目标。常见的传感器有激光雷达(LiDAR,Light Detection and Ranging)、相机(Camera)、毫米波雷达(RaDAR,Radio Detection and Ranging,或者millimeter wave radar)、超声波雷达(ultrasonic radar)。
从传感器的功能角度看,上述两个方面的传感问题都需要用到多传感器融合。
下面是对常见传感器的总结。
传感器 |
传感器类型 |
成像细节 |
成像空间 |
视野范围 |
触发方式 |
价格 |
量产需求 |
Camera |
被动 |
稠密 |
2D |
距离:0-200m FOV:30°/60°、120°/fisheye 盲区:近处盲区 |
滚动快门,成像时间域内有误差 |
<1k |
成熟量产 |
LiDAR |
主动 |
稀疏 |
3D |
距离:0-200m FOV:360°/<90° 盲区:近处盲区 |
逐点成像,成像时间域内无误差 |
5k~10w |
支持量产 |
Radar |
主动 |
稀疏 |
2.5D |
距离:5-150m FOV:<120° 盲区:近处盲区 |
成像时间域内无误差 |
<5k |
成熟量产 |
超声波雷达 |
主动 |
稀疏 |
2.5D |
距离:0-10m FOV:<120° 盲区:无 |
成像时间域内无误差 |
<1k |
成熟量产 |
下面总结了传感器如何相互配合
1)多种电磁波与机械波配合
2)被动传感器与主动传感器配合
3)稀疏传感器与密集传感器搭配,2D与3D配合远中近距离均适合
4)FOV可灵活搭配,可有效区分重点区域
5)时间戳误差可控,感知的维度各有所长
6)均已量产,LiDAR虽 成本高使用受限,但发展快
2. 为什么需要这么多传感器?
2.1 从需求侧分析
自动驾驶系统需要考虑多方面的因素:天气、光照条件、距离、维度及精度与系统级要求。除此之外,对于传感器,成本可控、满足车规要求也是十分重要的。
天气 |
光照条件 |
距离 |
维度及精度 |
系统级要求 |
晴天 |
白天 |
盲区(0-2m) |
六自由度观测 |
无漏检 |
雨天 |
黄昏 |
近距离(2-40m) |
速度/加速度/角速度等 |
无误检 |
雾天 |
黑夜 |
中距离(40-80m) |
|
时间误差<10ms |
阴天 |
阳光直射 |
远距离(80-200m) |
|
位置误差<30cm |
雪天 |
背光 |
超远距离(200+m) |
|
|
2.2 从供给侧分析
各种传感器各有优劣,一种传感器无法适配所有场景,因此需要出色的传感器融合技术。比如,摄像头颜色细节丰富、纹理细节丰富,但缺乏深度信息,且易受光照的影响;LiDAR具有完整的3D信息,对距离感知能力强,但成本高,量产难度大,对雨水、灰尘敏感;RaDAR全天候工作,速度感知能力强,量产成熟,但高度和角度精度低,静止障碍物感知能力弱。
3. 多传感器硬件系统的设计思路
对于自动驾驶汽车的多传感器硬件系统,一般从以下四个角度去考虑:感知区域、感知范围、优先级、冗余要求。
如图所示,对于自动驾驶汽车,将其行驶场景进行划分为5个区域。
区域0:常为车身感知盲区,主要用于慢速行驶的安全冗余以及泊车场景,优先级高;
区域1:主要用于前向行驶需求,通常分为三阶段,优先级高:
0-80m:要求感知精度高,高冗余
80-120m:要求感知精度中高,中等冗余
120-200m+:要求感知精度中等,冗余要求低
区域2/3:主要用于左右变道或转向场景,冗余要求较低,优先级中;
区域4:用于常规行驶的后向视野,冗余要求低,优先级中。
感知区域 |
感知范围 |
优先级 |
冗余要求 |
区域0 |
0-10m |
高 |
高 |
区域1 |
0-200m |
高 |
高 |
区域2/3 |
0-80m |
中 |
中 |
区域4 |
0-80m |
中 |
中 |
4. 多传感器系统的时序闭环
4.1 传感器时钟闭环构建
什么是时间闭环?
所谓时序闭环,就是让所有的参与者都在同一个时序上运转并持续维护时序的高精度运行。
在现实物理世界中,通过时区的方式来达到时序闭环。
1)全球分时区,每个时区内独立计时
•2)各时区与原子时钟同步,确保精度
那么自动驾驶中的传感器如何工作在同一时钟之下,达到时序闭环?
问题描述:
每种电子设备都有各自的时钟,起始时间均不相同,而且因晶振质量的差异,频率也不同。
同步误差分析:
传感器之间的时钟偏差,会导致各传感器检测到的障碍物位置发生偏差,自车速度越大,偏差越大。当车辆以120km/h的速度行驶时,若时钟偏差达到0.1s,则可以算出距离偏差达到了3.33m,偏差较大。
需求分析:
自动驾驶完整系统的误差需要控制在0.3m以内,通常需要将闭环时钟同步误差控制在微秒级别。
接着,需要将传感器接入已有的时钟同步闭环系统之中。如上图所示,有两种接口:一种通过车载计算平台与网络连接;另一种通过GNSS/IMU。
上图中,车辆通过车载计算平台与网络连接,与原子钟更新校正时间;通过GNSS/IMU校正时间。原子钟与GPS的时间都是精确的。
通过计算客户端client与服务端server之间的偏差offset,以1s为周期,根据offset调整client时钟,可将时钟误差稳定控制在微秒级别。
因此得出车载系统可以接入已有时钟同步闭环,精度满足需求。
再分析各传感器能否接入已有时钟同步闭环。
对于LiDAR,LiDAR设备支持两种时钟同步方式:
IEEE 1588-2008(PTPv2):以太网接口同步;
PPS脉冲信号+NMEA消息(GPS).
通过以上两种方式接入GNSS+IMU设备或者主机所属的以太网即可。以上同步周期进行,可控制在微秒级精度。
对于camera,非定制相机模组不支持时钟同步,定制相机可选择支持。对于radar,非定制Radar不支持时钟同步。对于超声波雷达非定制超声波雷达不支持时钟同步。
因此,在目前的多传感器系统中,时钟无法做到微秒级同步。
4.2 成像同步机制
在目前的多传感器系统中,时钟无法做到微秒级同步。因此,需要考虑在硬件层面上的同步——成像同步。
更进一步,让传感器同时成像(硬同步),可进一步降低成像误差。
构造一个触发装置,在指定的时刻,发送触发信号,让所有的传感器触发成像,减少成像时刻误差。该设备功能如下:
连接GPS信号和NTP server,确保时钟实现微秒级同步
设置触发逻辑(如LiDAR正 前方的成像相位),同时触发LiDAR和Camera成像
支持多LiDAR和多Camera,暂不支持Radar和超声波雷达
优点:系统精度更高,可将系统同步精度控制在Δ \DeltaΔt < 5ms;
缺点:丢失一些系统的灵活度和高频数据。
5. 多传感器融合算法
5.1 多传感器融合问题建模
我们将多传感器融合问题如下建模:
对于建图与定位可以用以下式子描述:
其中:
1)
为t时刻传感器系统采集的信息,通常包含
2)R为当前自车坐标系相对于世界坐标系的旋转矩阵,t为对应的平移向量;
3)
为t时刻的道路环境特征元素,以语义或者特征点的形式表达;
对于感知问题,可以用以下式子描述:
其中:
1)sensort为t时刻传感器系统采集的信息,通常包含
;
2)objectst为t时刻环境中的目标级障碍物,可用位置、速度、加速度、类别等属性描述独立个
3)scenariot为t时刻环境中的语义级别元素描述,通常不能独立的障碍物形式表达,如施工区域、雨水场景等;
对于感知问题,有两种主要实现方式:前融合与后融合。
5.2 后融合
后融合:多模态数据分别完成检测和分割任务后的元素融合。
首先对LiDAR的数据进行3D检测与分割,再进行多目标跟踪,得到3D空间的元素;对camera的数据进行2D的检测,得到2D空间的元素信息;对RaDAR的信息进行处理。得到2.5D的信息,利用算法进行多传感器融合,最后输出结果。
5.2.1 后融合需要解决的问题
人工智能芯片与自动驾驶