TEMPORAL DIFFERENCE MODELS: MODEL-FREE DEEP RL FOR MODEL-BASED CONTROL
发表时间:2018(ICLR 2018)
文章要点:这篇文章提出了temporal difference models(TDMs)算法,把goal-conditioned value functions和dynamics model联系起来,建立了model-free和model-based RL的关系,结合了各自的优点,既利用dynamics里丰富的信息,也超过了直接model based RL的效果。
具体的,一个model based RL的问题可以看求动作序列,同时满足状态转移的约束
换个写法,可以写成
然后,如果我们把reward定义成和状态相关的距离
那么如果折扣因子为0,即我们只考虑一步的reward,我们有goal conditioned value function为
然后前面的式子变为
这个时候就发现,前面model based RL的优化目标,就变成一个和Q function相关的一个东西了,这就和model free方法联系上了。但是这个时候只能考虑折扣因子为0的情况。进一步,在goal conditioned value function里面再加一个planning horizon的参数\(\tau\),定义一个和horizon有关的Q
这样一来,这个Q就表示给定\(\tau\)步,这个agent和目标状态还有多远。如果\(\tau=0\),这个东西就变回一步的值了,也就是之前那个一步的dynamics model。所以这个TDM算法可以看成是model based和model free的一种中间形式。进而优化目标变成
有了这个式子之后,就可以组成整个算法了。先用MPC的方式基于reward,和这个Q(这个Q既可以认为是Q,也可以认为是dynamics model)来选择动作,在环境里执行之后收集状一步的态转移存下来。然后用这些状态转移,构造不同目标状态,不同τ的样本用来训练Q。然后重复这个过程。
另外,文章里面还说了,reward做成一个向量的形式来学习,因为reward是和距离相关的,然后状态就是坐标位置,所以这个reward关于各个分量具有可加性,就可以各个坐标分开计算reward(if the distance D(s; sg) factors additively over the dimensions, we can train a vector-valued Q-function that predicts per-dimension distance)。这样的好处是如果有的问题只需要在几个分量上考虑的话,这个问题会变得简单很多(can train the TDM to predict distances along only those dimensions or features that are used by r)。
总结:很有意思的一个工作啊。
疑问:planning是不是在reward稀疏的时候作用更大?
因为这个距离的定义是基于状态的,文章里面的状态就是坐标位置之类的,所以算距离就比较直接,如果状态是图像之类的,就会比较麻烦吧?