【个人思考】关于自动驾驶planning的PEV和benchmark问题
关于自动驾驶planning的PEV和benchmark问题:
众所周知,当前planning缺乏一个公认的benchmark。从表面上来看,这个问题只会导致决策领域没有公认性能下的榜单,导致不同方法各行其道,各执一词。
但进一步分析,这个问题的根源是,没有一个正确评估policy的指标,也就是policy evaluation(PEV)不合理。
更合理的PEV带来更合理的PIM(policy improvement),这应该是显然的。
我的看法是,评估一个策略,需要综合去评判他的一般性场景表现,以及试探它的能力边界(比如在对抗性场景下的安全表现)。
这两者需要综合去评判。
那问题就来了:
但如何量化能力边界?而且能力边界测试场景确定的情况下,不断去训练,那能力边界是不是又拓宽到其他的方面了?
一般性场景表现如何衡量?现有的一些评价标准里面,TTC、efficiency等等指标一通加权和是合理的吗?
二者的balance如何权衡?
人类行为是否代表最优解?即人类行为是不是最优策略这个映射的真值?
假设,我们仅在设定好的对抗性的场景下做训练和测试,
训了一个以corner case下表现最优(即试探能力边界)为标准的agent,
即,在corner case场景集的状态分布下,Q值的期望最大的策略
那么它在一般化场景测试时,会不会受限于分布偏移问题?
也就是,它会不会变成一个corner case下的专用网络,而在general场景下变得杯弓蛇影,反而效果不好。
假设,我们在一般道路场景以及自由交通流的数据分布下, 进行训练和测试,
很容易用蒙特卡洛法做策略评估的方式来理解,符合RL中对值函数定义的直觉,
这样子训到一个符合RL定义的最优策略,即,在一般场景的状态分布下,Q值的期望最大的策略。【注意,Q值本身的定义是折扣累积奖励的期望】
但,这个理论最优策略真的是我们想要的“最优”策略吗?
因为人类对自动驾驶这类安全相关的策略,对它的能力边界非常关注,一个corner case下能否保持基本安全是人类评价一个策略很重要的标准。
这是否说明,人类在评价决策算法的时候,reward function实际是在变化的?
也就是说,在最理想的条件下,RL求解的最优策略,仍然无法与人类寻求的“最优”策略对齐。
怎么解决呢?感觉很困难,已经不在MARKOV决策过程的范畴内了,值得思考。