摘要: **发表时间:**2018(ICLR 2018) **文章要点:**从variational inference的角度引入了一种新的RL范式:最大化后验策略优化(MAXIMUM A POSTERIORI POLICY OPTIMISATION,MPO)。主要式子如上图,目标是使得获得最大reward 阅读全文
posted @ 2021-07-16 00:23 initial_h 阅读(551) 评论(0) 推荐(0) 编辑