摘要:
什么是PPO 是一种off-policy 的 policy gradient。 PPO enables multiple epochs of minibatch updates. Importance Sampling 可以在q的distribution里sample data,不用直接从p里sam 阅读全文
摘要:
什么是Actor-Critic 之前通过李宏毅、莫烦Python的视频了解了Actor-Critic的基本概念。 现在看看Actor-Critic的论文继续了解一下。 Critic-Only and Actor-Only 这篇文章之前的算法是Critic-Only, or Actor-Only。 A 阅读全文