用于运动目标检测与跟踪的多传感器融合与分类(下)
用于运动目标检测与跟踪的多传感器融合与分类(下)
摄像头图像
为了从相机图像中提取关于物体视觉外观的信息,我们必须能够使用视觉特征来表示这些物体。
视觉表示:定向梯度直方图(HOG)描述符在车辆和行人检测中显示出了很好的结果。我们决定将这个描述符作为我们的车辆和行人视觉表示的核心。对象表示的目标是生成要在未来阶段使用的图像区域的视觉描述符,以确定这些区域是否包含感兴趣的对象。
我们提出了HOG描述符(SHOG)的稀疏版本,该描述符专注于图像块的特定区域。这允许我们减少常见的高维HOG描述符。图6说明了我们选择的一些块,以生成不同对象类的描述符:行人、自行车、汽车和卡车。这些块对应于物体的有意义的区域(例如,行人的头部、肩部和腿部)。为了加速S-HOG特征计算,我们采用了积分图像方案。
图6. 每个对象类面片的信息块,从左到右:行人、汽车和卡车。在这些稀疏块上计算梯度的直方图,并将其连接以形成S-HOG描述符。行人、自行车、汽车和卡车的描述符平均大小分别为216、216、288和288。
物体分类:由于性能限制,我们没有实现基于视觉的运动物体检测。我们使用激光雷达检测提供的感兴趣区域(ROI)来关注图像的特定区域。对于每个ROI,提取视觉特征,并应用分类器来确定感兴趣的对象是否在ROI内。分类器的选择对最终的速度和质量有很大的影响。
我们实现了一种基于boosting的学习算法,离散Adaboost。它将许多弱分类器组合在一起形成一个强大的分类器,其中弱分类器只需要表现得比偶然更好。
对于每个感兴趣的类别(行人、自行车、汽车、卡车),训练一个二元分类器来识别对象(正)和非对象(负)补丁。对于离线训练阶段,从公共数据集(如Daimler数据集)和手动标记的数据集收集正面图像,这些数据集包含来自不同对象视角的感兴趣对象(正面、背面、侧面)。
离线分类器由滑动窗口方案中的在线对象分类阶段使用。图7显示了在合并到最终对象之前行人和汽车检测结果的示例(分别为绿色和红色框)。我们为每个可能的对象估计对象分类的置信度。通常,正区域(包含感兴趣的对象)的数量越多,该对象属于该特定类的置信度就越高。
雷达目标
雷达传感器使用内置机制来检测移动的障碍物(目标),特别是那些横截面类似汽车的障碍物。n个目标的列表作为感知方法的输入提供。列表中的每个元素都包括检测到的目标的距离、方位角和相对速度。由于传感器将为每个具有显著雷达横截面的物体产生回波,因此目标可能对应于静态物体或其他移动障碍物,从而产生误报。以类似的方式,像行人这样的弱物体并不总是能被检测到,从而产生错误检测。由于定义感兴趣对象的动力学不同,我们使用由等速、恒加速度和转弯模型表示的交互式多模型(IMM)来跟踪每个目标。IMM提供了第一(GPB1)度和第二(GPB2)度的广义伪贝叶斯方法之间的折衷。
它只像在GPB1中那样计算k个高斯,但它仍然像在GPB2中那样具有k个高斯的混合物作为输出。目标之间的数据关联是通过prunned多假设跟踪方法实现的。
运动物体分类
我们通过在检测级别的融合中包含类别信息来增强常见的动力学表示。这些信息可以帮助改善检测关联,更好地估计对象的运动,并减少错误轨迹的数量。然而,在检测级别上,对象的类别没有足够的确定性,并且只保留一个类别假设会使纠正过早决策的可能性失效。
复合表示由两部分组成:动力学+外观。前者包括从运动物体检测过程中推断出的二维空间中的位置和形状信息。后者包括一个证据分布
对于所有可能的类假设,其中Ω ={{行人、自行车、汽车、卡车}是代表兴趣类别的辨别框架。融合方法使用该表示来传递对象检测的融合列表,并执行跟踪。
图7. 从摄像机图像成功检测行人(左)和汽车(右)的示例。
激光雷达传感器
对象表示的第一部分可以通过分析检测到的运动对象的形状来获得。在大的检测的情况下,该对象
由方框
建模,其中x和y是方框的中心,w和l是根据对象c的类别的宽度和长度。对于小的检测(主要是行人),使用点模型
,其中x,y和c分别表示对象的对象中心和类别。通过测量2D占用网格中检测到的对象来获得对象的位置和大小。对象的类别是根据对象的可见大小推断的,并遵循固定拟合模型方法。然而,由于移动对象的临时可见性,无法做出精确的分类决定。例如,如果检测到的物体的宽度小于阈值
,我们可能认为物体是行人或自行车,但我们不确定物体的真实大小。
为了定义感兴趣类别的典型规模,我们使用了欧洲销售的几辆乘用车、卡车和摩托车的物理尺寸分布的先验知识。然而,我们不是只保留一个类决策,而是为每个a∈定义一个基本的置信赋值ml(a)(方程4)Ω,其描述了由激光雷达检测到的运动物体类别的证据分布。我们包括与类别相关的因素
,以分别表示激光雷达检测行人、自行车、汽车和卡车的性能。此外,我们还使用贴现因子
来表示激光雷达处理对自行车或汽车进行错误检测的不确定性。
当检测到自行车时,由于能见度问题,检测到的物体仍然可能是汽车或卡车的一部分,因此证据也放在{b,c,t}中。出于同样的原因,当检测到卡车时,我们几乎可以肯定它不可能是一个更小的物体。在所有情况下,无知假说Ω代表了知识的缺乏和课堂的普遍不确定性。
摄像头传感器
相机图像提供了有区别的视觉信息,这导致获得对象类别的另一个证据分布。我们遵循第VI-B2节中描述的图像处理。对于假设生成,我们首先为要分类的图像的每个部分构建S-HOG描述符。为了验证假设,我们使用构建的分类器对不同的对象进行分类。
基于相机的分类在每个ROI内生成几个子区域,由激光雷达提供,以覆盖许多可能的规模和大小配置。有时,ROI可以包含多个感兴趣的对象。
一旦我们获得了每个ROI的对象分类,我们就根据等式5生成基本的置信度分配mc。这个信念分配代表了中的类假设的证据分布Ω为相机处理检测到的每个对象,其中
,
和
是置信因子,表示相机传感器的精度。
雷达传感器
雷达目标被认为是初步的运动目标检测。因此,为了获得物体的类别,我们使用传感器传递的相对目标速度。速度阈值
是使用城市地区车辆最慢情况下的记录数据静态估计的。我们应用基本置信赋值
,其中
和
是特定类的置信因子。
融合方法
一旦我们对每个传感器输入执行了移动物体检测,并定义了复合物体表示,下一个任务就是物体检测和跟踪的融合。我们提出了一个置于检测级别的多传感器融合框架。尽管这种方法是使用三个主要传感器提出的,但通过定义能够提供先前定义的对象表示的额外检测模块,它可以扩展到使用更多的证据来源。
数据关联
当使用许多证据来源时,如在对象检测级别中,重要的是要考虑在传感器(证据来源)提供的不同检测列表中找出哪些对象检测相关的问题。
移动对象跟踪
使用我们的融合方法提供的对象检测的组合列表,我们修改了所描述的基于模型的运动对象跟踪方法。我们使用我们的复合表示调整了MCMC采样过程,以在滑动时间窗口中找到轨道(假设)的最佳轨迹。然后将生成的物体假设放入自上而下的过程中,考虑所有物体动力学模型、传感器模型和可见性约束。然而,我们不是在所有可能的邻居假设中进行搜索,而是使用每个对象检测的类证据分布,通过考虑具有更多大量证据的假设来减少搜索空间。如果两个对象的类属于同一个通用集,则它们具有相似的类。两组类被定义为一般类:车辆={c,t}和人={p,b}。
如果一个物体在假设{c}中具有高证据质量,我们只对c和t的可能假设进行采样。当最高质量的证据被放在非单因素假设(如车辆)中时,搜索空间被扩展到包括c和t样本。如前所述,我们执行动态融合策略,将融合方法提供的对象的当前状态与当前轨迹的对象描述相关联。这允许在每次有新的传感器数据可用时保持对象类信息的最新状态。因此,我们的DATMO解决方案的最终输出由运动物体的列表组成,该列表由其动力学信息和由大量证据表示的一组所有可能的类假设描述。
实验结果
使用第四节中描述的传感器设置,我们从真实场景中收集了四个数据集:两个来自城市地区的数据集和两个来自高速公路的数据集。这两个数据集都是手动标记的,以便提供一个地面实况参考。我们分析了通过在DATMO组件中尽早包含类信息所实现的改进程度。此外,我们使用相同的实验场景,对所描述的跟踪级融合方法和检测级融合方法进行了比较。
在我们的DATMO检测级解决方案中,我们首先对激光雷达传感器测量执行SLAM,以检测可能的移动实体。在每次检测的2D位置状态中,我们定义了辨别的框架Ω ={p,b,c,t}的证据类分布。
因此,
是每个检测的所有可能的类假设的数量。然后,按照第六节和第七节中介绍的方法提取激光雷达、雷达和相机检测的目标表示。一旦我们获得了对象表示,我们就在检测级别执行融合,并跟踪融合的对象列表。
图8显示了我们在公路和城市地区的完整PS的两个输出示例。由于车辆周围有大量移动物体,这两种场景都被视为高流量场景。在这两种情况下,所有车辆,包括迎面而来的车辆,都得到了很好的检测、跟踪和正确的分类:高速公路上有几辆汽车和两辆卡车;以及市区的几辆汽车、一辆卡车和一名行人。
此外,还报告了静态物体(如障碍物),并使用第VI-A1节中描述的方法将其正确识别为静态障碍物。在这些例子的俯视图中,移动物体的速度由基于模型的跟踪模块估计,该模块利用复合物体表示来提供速度和方向。在早期融合阶段,雷达多普勒速度信息有助于提高激光雷达在已知移动方向后估计的目标速度。此外,通过来自三个不同传感器的融合信息以类分布的形式提供更可靠的类假设,提高了对象的类。持续支持应用程序使用此类分布来决定正确的操作。
在我们感知方法的输出中,移动物体由几条信息表示:位置、几何形状、物体类别、速度和移动方向,这些信息不能仅由一个单独的传感器提供。使用可见激光雷达测量、固定大小的类模型和来自相机分类的横向信息来更新边界框的大小。
边界框的高度是根据检测到的对象的类别和相机分类器的结果设置的。
表I和表II显示了由所提出的融合方法在检测级别上获得的结果与我们之前提出的在跟踪级别上的融合方法之间的比较。它考虑了对运动物体的错误分类。我们使用四个数据集进行实验:两个来自高速公路的数据集和两个来自城市地区的数据集。
表一
融合结果。c和t未分类的数量。
表二
融合结果。p和b未分类的数量。
可以看到,相对于跟踪级融合,高速公路检测级融合的改进并不显著。然而,在高速情况下,移动车辆的确定性非常重要。因此,这种小的改进对于最终应用非常有用,例如连续支撑系统。城市地区代表着对车辆感知的现代挑战。与我们的其他融合方法相比,融合方法在检测水平上有了相当大的改进。这里,传感器检测的更丰富的表示和数据关联关系允许对真实移动的车辆进行早期检测。
关于行人分类结果,我们获得了与车辆检测类似的改进。
激光雷达检测到的小集群是移动的障碍物,但不确定是否被归类为行人的问题主要通过雷达和基于相机的分类的分类信息的早期组合来克服。此外,在我们提出的方法中,运动物体(不仅仅是行人)的分类比所描述的比较融合方法平均需要更少的传感器扫描。
这是由于关于放置在mca和mcb中的检测对象类别的知识的早期集成,这与MCMC技术执行的形状和运动模型发现过程的搜索空间减少直接相关。
在线评估
根据我们PS的运行时间统计,在城市地区(最具挑战性的场景),平均计算时间为40ms,满足了设计的实时平台的处理时间要求(75ms)。
在农村和高速公路上,整个PS的处理可以减少到30ms。表III总结了在四种不同情况下用在线数据测试PS后收集的结果。正确的检测代表真实的运动物体。错误检测表示被错误地识别为移动物体的检测。正确的分类代表分类良好的移动物体。错误的分类是不言自明的。为了清楚起见,正确和错误检测的数量以及分类也用百分比表示。四个感兴趣的物体被考虑在内:行人、自行车、汽车和卡车。
在只有少量汽车和行人的测试跑道场景中,行人和汽车的检测和分类率几乎完美(96-100%)。该场景不包含许多常见的驾驶情况,例如多个移动物体和高交通动态。然而,它允许我们测试PS的特定组件,例如行人和车辆分类以及移动车辆跟踪。
图8. 公路(1)和城市地区(2)的PS结果。检测到几个感兴趣的对象。左侧显示相机图像和已识别的移动对象。黄色方框表示移动物体,红色圆点表示激光雷达命中,红色圆圈表示雷达探测。右侧显示同一场景的俯视图。标记标识检测到的对象的类。我们的结果视频演示可以在中找到http://goo.gl/fumbc2。
在高速公路上,车辆的检测率也很高:汽车(97.8%)、卡车(96.4%),其中遗漏的检测主要是由于固有的噪声和杂乱数据(例如激光雷达对地面的影响)。卡车的大尺寸使得卡车检测不如汽车检测准确,因为它有时与障碍物混淆。误检率(2.2%)主要是由于原始激光雷达数据中的反射产生了重影物体和噪声雷达目标检测。
然而,融合方法允许获得汽车或卡车的高度正确分类率,同时保持非常低的错误分类率。
在城市地区,考虑到移动障碍物数量的增加和杂乱的环境,车辆检测和分类仍然很高。然而,错误检测率高于高速公路场景中的错误检测率。
这种增加是由于高度动态的环境和高流量情况下视野的减少。此外,当分类器将交通岗哨错误地分类为行人时,行人错误分类通常会出现。这些错误分类建议构建更稳健的视觉分类器或实现更具辨别力的视觉描述符。
在农村道路中,可能会出现几个感兴趣的移动物体,但不存在高交通动态。此外,交通标志较少。在该场景中获得的错误分类率高于从其他三个场景中获得。这是由于越来越多的自然障碍物,如灌木丛和树木。常见的物体错误分类是由于错误的移动物体(主要是丛)初步分类为卡车或行人。一种解决方案可以是实现专用分类器来丢弃这种类型的障碍物。
结论和观点
回顾了智能车辆感知的问题。具体来说,我们将重点放在感知任务的DATMO组件上。我们已经提出使用分类信息作为复合对象表示的关键元素,其中不仅动力学信息而且外观信息在检测、分类中起着重要作用以及跟踪感兴趣的运动对象。我们通过在检测级别执行多传感器融合,分析了复合对象描述的影响。我们使用了三种主要传感器来定义、开发、测试和评估我们的融合方法:激光雷达、雷达和相机。此外,我们的完整感知解决方案是使用interactVe欧洲项目真实车辆的在线和离线数据进行评估的。
表三
在四个场景中的PS结果:高速公路、城市地区、农村道路和测试跑道。考虑了四个感兴趣的对象:pEDESTRIAN、bIKE、cAR和tRUCK。
在检测级别集成类别信息,允许融合通过考虑被检测对象的不同类别假设上的证据分布来改进检测。这种改进直接减少了DATMO组件早期级别的错误检测和错误分类的数量。此外,跟踪阶段受益于错误检测的减少和更准确的分类信息,以加速跟踪过程。
展望
基于3D的表示(例如,体素片段)可以提供更多关于车辆演示器周围障碍物的形状/类别的信息,例如感兴趣的物体和产生错误分类的常见障碍物(例如,树木、灌木和杆)。
有时分类精度会根据当前的驾驶场景而变化。场景分类领域的有希望的结果可以支持基于上下文的学习方法来估计检测和分类模块中的参数,从而生成更接近真实驾驶情况的可靠性因素。