Muesli: Combining Improvements in Policy Optimization


发表时间:2021(ICML 2021)
文章要点:这篇文章提出一个更新policy的方式,结合regularized policy optimization 以及model learning as an auxiliary loss。最后直接用policy net输出动作,不做搜索,就能有很好的效果。
具体的,作者提出了clipped MPO (CMPO) regularizer的更新方式。Regularizer为KL散度


有了Regularizer之后,更新就是PG

接着就是用model学一个辅助任务,在model里执行k步,然后有一个policy,用来和真实环境里的policy算一个KL的约束

然后差不多就结束了。作者在这前其实还提了一些设计思路和需要考虑的东西,感觉有点废话,不过还是放到这里

总结:感觉主要的地方已经变成policy optimization了,muzero里面的learned model,tree search基本上都被弱化了,就有点不像是search的算法了。
疑问:里面解释了很多有的没的,没有细看。

posted @ 2023-06-02 22:36  initial_h  阅读(21)  评论(0编辑  收藏  举报