摘要: 什么是PPO 是一种off-policy 的 policy gradient。 PPO enables multiple epochs of minibatch updates. Importance Sampling 可以在q的distribution里sample data,不用直接从p里sam 阅读全文
posted @ 2021-12-22 20:05 xxxuanei 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 什么是Actor-Critic 之前通过李宏毅、莫烦Python的视频了解了Actor-Critic的基本概念。 现在看看Actor-Critic的论文继续了解一下。 Critic-Only and Actor-Only 这篇文章之前的算法是Critic-Only, or Actor-Only。 A 阅读全文
posted @ 2021-12-22 20:04 xxxuanei 阅读(210) 评论(0) 推荐(0) 编辑