【论文阅读】A Survey of Deep Reinforcement Learning Algorithms for Motion Planning and Control of Autonomous Vehicles

摘要:看看RL怎么用在motion planning和control上。【读的时候没注意,才10引用,果然不太行】

1.INTRODUCTION

  有监督学习每个任务都要一大堆标注数据,costly。而且不能覆盖所有复杂场景。RL没有以上两种缺点。

  决策和控制上使用的RL方法,分两类:分层方法(pipeline/ hierarchical)和端到端(end-to-end)方法,看图1。文中提到,分层的方法把运动规划分层不同的模块,这种做法是为了更好解释,而不是为了获得系统的最好的表现,比如说一个环节可以用数据进行改进,而其他部分没有改进,那么没有改进的就成了技术路线中的瓶颈。

  最近,很多人研究深度强化学习驱动的end-to-end方法,从传感数据直接到控制指令。两个原因:①表现好(不太认同)②系统规模小。

  这篇文章organised: II和III,介绍深度强化学习如何在pipeline方法应用于行为决策、运动规划和控制模块。IV, deep RL in 端到端方法和sim-to-real方法。V,挑战和展望。

 

2. Deep RL in 行为决策 和 运动规划

  典型的pipeline是,输入传感器数据流,辅以全局路径规划信息,处理后最终得到控制输出(转角、加速度),这种处理的流程一般是分层的,因为驾驶动作天然是分级的,先是一个高级的离散状态的决策(行为决策,换道、跟车、左转),接着一个连续状态空间的动作(运动规划,提供能满足behavior的安全舒适可行的轨迹)。

  deep RL 在行为决策方面很成功,尤其是高速路和交叉口场景。为了减少采样复杂度(为什么是采样复杂度?),有的研究用中介感知结果(已经提取了车辆和环境的状态,不是raw data)[9]。怎么考虑安全问题?很常见的想法是在执行前加action的安全约束。[10]用DQN标记交叉口不安全的行为。[11,12]用DQN做的换道模型输出轨迹,然后接一个基础的rule-based安全校验层。[13],分层RL架构,换道决策和运动规划合并,一个DQN基于安全考虑决定maneuver时机,一个DQN纵向上complete这个maneuver。[14],用模仿学习IL从人类演示中学习,加扰动排除不好的行为(?

  最近actor-critic也引入了。比较于值函数法,能直接计算动作,而不是最优化值函数;提供低方差的表现的知识(?)。[15,16]应用,没具体讲。

 

3.Deep RL in 控制(略)

  很多研究致力于完成低级车辆控制,比如车道保持、横向控制、纵向控制,或二者兼具。下面详细说了这几种。

 

4.deep RL in 端到端方法(这部分的分类真的合理吗??

  文章认为pipeline方法如果某个部分拉了,就无法保证整个系统的最优表现,最终有瓶颈。认为端到端方法表现更好,系统规模更小。端到端方法里,各模块不会清晰地分离,比如网络里哪部分作为特征提取器什么的。但能以更少的步骤同时优化所有模块

4.1 真实世界应用的联合最优化

   文章先讲不用RL的有监督学习的端到端。[34]NVIDIA用CNN学习并端到端控制汽车。[35]有监督学习,输入video,用lstm预测他车,输出的标签是人类的驾驶行为。

  下面说RL方法。[36],单目图像输入,AC算法,任务是车道保持,reward是被其他车影响前能走的距离。[37]类似,A3C算法。[38]换非结构化道路场景(越野?)

4.2 模拟仿真

  上路代价大,要仿真。

  TORCS, CARLA, Unity, WRC6, Vdrift

4.3模拟仿真到现实世界的方法

  虽然仿真训练出来的模型不足以解决决策规划问题,但是个把网络和模型初始化的好方法。也就是先在仿真里面训练个能用的agent,再在实际中继续训练。

transfer the knowledge learned from the simulator to real-world applications。但有研究显示CARLA训练的模型不能传递到现实世界。

 

4.4 总结 

  整个文章我认为最重要的一张表,被他放在小结里面草草带过,有些可惜。这张表详细列举了一些文献中强化学习框架的设计(S,A,R)

 

 

下面就是结论什么的了,意义不大了。这篇文章感觉总体价值不大,这个表有点意思除外

 

  

词语积累:

pipeline

leverage

bottleneck

underlying

Specifically

intervention

hinder

human demonstrations

a stream of observation

posted @ 2022-10-09 19:42  Zer0_Chambers  阅读(78)  评论(0编辑  收藏  举报