随笔档案「2021年7月16日」：MAXIMUM A POSTERIORI POLICY OPTIMISATION... - initial_h

2021年7月16日

MAXIMUM A POSTERIORI POLICY OPTIMISATION (MPO)

摘要： **发表时间：**2018（ICLR 2018） **文章要点：**从variational inference的角度引入了一种新的RL范式：最大化后验策略优化（MAXIMUM A POSTERIORI POLICY OPTIMISATION，MPO）。主要式子如上图，目标是使得获得最大reward 阅读全文

posted @ 2021-07-16 00:23 initial_h 阅读(711) 评论(0) 推荐(0)

initial_h

https://github.com/initial-h

公告