Model-Based Reinforcement Learning via Latent-Space Collocation
发表时间:2021(ICML 2021)
文章要点:这篇文章提出了latent collocation method (LatCo)算法,用来planning状态序列,而不是动作序列,来解决long horizon的planning问题(it is easier to solve long-horizon tasks by planning sequences of states rather than just actions)。主要思路就是先找到reward高的状态,然后再找到达那个状态对应的动作序列(we turn to the technique of collocation, which optimizes a sequence of states to maximize the reward, while also eventually ensuring dynamics feasibility by recovering the corresponding actions)。
具体的,优化目标为
先学一个latent state space models把观测转换成隐状态,然后基于隐状态来学状态转移和reward函数。然后优化目标就变为
把dynamics model和action的约束加上,最后的式子变成
为了解这个优化问题,文章还利用Levenberg-Marquardt optimization来提高训练速度(This efficient optimizer converges 10-100 times faster than gradient descent in wall clock in our experiments.)。
总结:很有想法的一篇文章啊,通过优化状态轨迹来planning,先不去管动作,先找到reward高的状态,然后再回过头来找动作,确实挺有意思。这个方式有点像先找到state作为subgoal,然后再找动作序列。不过这个过程是在latent space上面做的,是不是就和model的准确性有很大关系了。还有,好像没有看到RL的算法在里面,主要就是学model,然后planning。或者可以把planning看成是RL,因为这里面planning也是用优化方法做梯度更新的方式来做的。
疑问:Levenberg-Marquardt optimization不懂。
里面很多式子变来变去的,比如几个优化目标的转换过程,不是很理解。
最后是怎么形成一条可行的动作序列到达那个状态的其实不是很理解,加个约束项真的够了吗?会不会有失败的情况?
这文章感觉挺难的,还没想明白具体是怎么work的。