【论文阅读】A Survey of Deep Reinforcement Learning Algorithms for Motion Planning and Control of Autonomous Vehicles

摘要：看看RL怎么用在motion planning和control上。【读的时候没注意，才10引用，果然不太行】

1.INTRODUCTION

　　有监督学习每个任务都要一大堆标注数据，costly。而且不能覆盖所有复杂场景。RL没有以上两种缺点。

　　决策和控制上使用的RL方法，分两类：分层方法(pipeline/ hierarchical)和端到端(end-to-end)方法，看图1。文中提到，分层的方法把运动规划分层不同的模块，这种做法是为了更好解释，而不是为了获得系统的最好的表现，比如说一个环节可以用数据进行改进，而其他部分没有改进，那么没有改进的就成了技术路线中的瓶颈。

　　最近，很多人研究深度强化学习驱动的end-to-end方法，从传感数据直接到控制指令。两个原因：①表现好（不太认同）②系统规模小。

　　这篇文章organised: II和III，介绍深度强化学习如何在pipeline方法应用于行为决策、运动规划和控制模块。IV， deep RL in 端到端方法和sim-to-real方法。V，挑战和展望。

2. Deep RL in 行为决策和运动规划

　　典型的pipeline是，输入传感器数据流，辅以全局路径规划信息，处理后最终得到控制输出（转角、加速度），这种处理的流程一般是分层的，因为驾驶动作天然是分级的，先是一个高级的离散状态的决策（行为决策，换道、跟车、左转），接着一个连续状态空间的动作（运动规划，提供能满足behavior的安全舒适可行的轨迹）。

　　deep RL 在行为决策方面很成功，尤其是高速路和交叉口场景。为了减少采样复杂度（为什么是采样复杂度？），有的研究用中介感知结果（已经提取了车辆和环境的状态，不是raw data）[9]。怎么考虑安全问题？很常见的想法是在执行前加action的安全约束。[10]用DQN标记交叉口不安全的行为。[11,12]用DQN做的换道模型输出轨迹，然后接一个基础的rule-based安全校验层。[13]，分层RL架构，换道决策和运动规划合并，一个DQN基于安全考虑决定maneuver时机，一个DQN纵向上complete这个maneuver。[14]，用模仿学习IL从人类演示中学习，加扰动排除不好的行为（？）

　　最近actor-critic也引入了。比较于值函数法，能直接计算动作，而不是最优化值函数；提供低方差的表现的知识（？）。[15,16]应用，没具体讲。

3.Deep RL in 控制（略）

　　很多研究致力于完成低级车辆控制，比如车道保持、横向控制、纵向控制，或二者兼具。下面详细说了这几种。

4.deep RL in 端到端方法（这部分的分类真的合理吗？？）

　　文章认为pipeline方法如果某个部分拉了，就无法保证整个系统的最优表现，最终有瓶颈。认为端到端方法表现更好，系统规模更小。端到端方法里，各模块不会清晰地分离，比如网络里哪部分作为特征提取器什么的。但能以更少的步骤同时优化所有模块

4.1 真实世界应用的联合最优化

　　文章先讲不用RL的有监督学习的端到端。[34]NVIDIA用CNN学习并端到端控制汽车。[35]有监督学习，输入video，用lstm预测他车，输出的标签是人类的驾驶行为。

　　下面说RL方法。[36]，单目图像输入，AC算法，任务是车道保持，reward是被其他车影响前能走的距离。[37]类似，A3C算法。[38]换非结构化道路场景（越野？）

4.2 模拟仿真

　　上路代价大，要仿真。

　　TORCS, CARLA, Unity, WRC6, Vdrift

4.3模拟仿真到现实世界的方法

　　虽然仿真训练出来的模型不足以解决决策规划问题，但是个把网络和模型初始化的好方法。也就是先在仿真里面训练个能用的agent，再在实际中继续训练。

transfer the knowledge learned from the simulator to real-world applications。但有研究显示CARLA训练的模型不能传递到现实世界。

4.4 总结

　　整个文章我认为最重要的一张表，被他放在小结里面草草带过，有些可惜。这张表详细列举了一些文献中强化学习框架的设计（S,A,R）

下面就是结论什么的了，意义不大了。这篇文章感觉总体价值不大，这个表有点意思除外

词语积累：

pipeline

leverage

bottleneck

underlying

Specifically

intervention

hinder

human demonstrations

a stream of observation

posted @ 2022-10-09 19:42 Zer0_Chambers 阅读(98) 评论(0) 收藏举报

刷新页面返回顶部

Zer0-Chambers

【论文阅读】A Survey of Deep Reinforcement Learning Algorithms for Motion Planning and Control of Autonomous Vehicles

公告