【论文阅读】Jointly Learnable Behavior and Trajectory Planning for Self-Driving Vehicles
Jointly Learnable Behavior and Trajectory Planning for Self-Driving Vehicles
作者:Abbas Sadat
摘要:运动规划总是由两个模块组成:behavior planner(行为决策)和trajectory planner(轨迹规划)。行为决策提供的是 高级的驾驶策略 和 一个粗略的轨迹; 轨迹规划生成 规划时间内平滑的可行的轨迹。有两个缺点:①行为规划中的一些改变可能会对轨迹产生不可预料的影响;②轨迹规划生成的最终轨迹可能和行为决策给的概略轨迹差别很大,因为二者的目标函数不一样。所以本文提出了一个将行为决策和轨迹规划联合的规划方法。
1.introduction
运动规划分两块:行为决策和轨迹规划。
行为决策用来约束轨迹生成器。早期的基于简单规则的行为选择,或者用有限状态机的方式,不能处理复杂环境。有的方法用序列A*或者并行采样方法(没懂)优化行为目标,同时考虑交规和其他智能体。一个比较常用的方式是先路径-速度分解,把运动限定在某一路径上,调整速度曲线来优化行为目标。个人理解是像这样:(一条换道轨迹已经给定,ab两辆车投影到这个轨迹上面(注意不是参考线,是轨迹。图中好像有些不对),然后把ST空间分三块,分别找一条代表性速度曲线)
轨迹规划分成连续型优化求解器和采样方法。略。
二者没有统一的目标函数,分开设计,造成缺陷。本文联合优化,共享同一个损失函数,还是端到端的无需手动调整损失函数。本文的动作规划器可以应对复杂场景,比如 nudge to部分占用车道的物体 和 在交叉口前停车。(很好奇如何解决)
2.related works
待补充
3.联合的 行为-轨迹 规划器
motion planner的输入表示为W,包含了自车状态、地图信息、检测到的物体(及其未来轨迹预测的概率分布)。输出一个高级驾驶决策b和一个10秒内的可执行轨迹t。把行为定义为一条自车理想情况下应该逼近和遵循的路径(行为轨迹的概念,只是没有速度信息),而这些路径的生成是考虑{保持车道,左换道,右换道}这些maneuvers来获得的。
(上面右换道的图画错了)
思路:根据自车位置和交规,生成行为集合B(W),也就是一些路径。生成对应路径下的轨迹集合T(b)。轨迹定义为离散时间下的状态量序列。寻优。
4.联合的损失函数
刚刚提到了,解空间是(b,t)的组合,目标函数的形式也给出了。算法就是搜索(b,t)空间,得到最优的目标函数
未完待续