【个人思考】关于自动驾驶planning的PEV和benchmark问题

关于自动驾驶planning的PEV和benchmark问题：

众所周知，当前planning缺乏一个公认的benchmark。从表面上来看，这个问题只会导致决策领域没有公认性能下的榜单，导致不同方法各行其道，各执一词。

但进一步分析，这个问题的根源是，没有一个正确评估policy的指标，也就是policy evaluation（PEV）不合理。

更合理的PEV带来更合理的PIM（policy improvement），这应该是显然的。

我的看法是，评估一个策略，需要综合去评判他的一般性场景表现，以及试探它的能力边界（比如在对抗性场景下的安全表现）。

这两者需要综合去评判。

那问题就来了：

但如何量化能力边界？而且能力边界测试场景确定的情况下，不断去训练，那能力边界是不是又拓宽到其他的方面了？

一般性场景表现如何衡量？现有的一些评价标准里面，TTC、efficiency等等指标一通加权和是合理的吗？

二者的balance如何权衡？

人类行为是否代表最优解？即人类行为是不是最优策略这个映射的真值？

假设，我们仅在设定好的对抗性的场景下做训练和测试，

训了一个以corner case下表现最优（即试探能力边界）为标准的agent，

即，在corner case场景集的状态分布下，Q值的期望最大的策略

那么它在一般化场景测试时，会不会受限于分布偏移问题？

也就是，它会不会变成一个corner case下的专用网络，而在general场景下变得杯弓蛇影，反而效果不好。

假设，我们在一般道路场景以及自由交通流的数据分布下，进行训练和测试，

很容易用蒙特卡洛法做策略评估的方式来理解，符合RL中对值函数定义的直觉，

这样子训到一个符合RL定义的最优策略，即，在一般场景的状态分布下，Q值的期望最大的策略。【注意，Q值本身的定义是折扣累积奖励的期望】

但，这个理论最优策略真的是我们想要的“最优”策略吗？

因为人类对自动驾驶这类安全相关的策略，对它的能力边界非常关注，一个corner case下能否保持基本安全是人类评价一个策略很重要的标准。

这是否说明，人类在评价决策算法的时候，reward function实际是在变化的？

也就是说，在最理想的条件下，RL求解的最优策略，仍然无法与人类寻求的“最优”策略对齐。

怎么解决呢？感觉很困难，已经不在MARKOV决策过程的范畴内了，值得思考。

posted @ 2024-03-26 00:49 Zer0_Chambers 阅读(41) 评论(0) 编辑收藏举报

刷新页面返回顶部

Zer0-Chambers