初识Actor-Critic

什么是Actor-Critic

这篇文章之前的算法是Critic-Only, or Actor-Only。
Actor-only：使用policy gradient，通过simulation来评估gradient好坏。
- 缺点：主要是estimation上的问题。
  - gradient estimators可能由很大的方差variance。
  - A new gradient is estimated independently of past estimates. 也就是说对gradient的评估并没有很好的用过去的经验，并没有很好的“learning”
Critic-only：只有value function approximation，学习近似Bellman equation的solution, 希望学习出一个near-optimal policy。
- 优点：
  - 也许可以在构造一个"good" approximation of value function上成功
  - 和actor-only相比收敛快 (due to variance reduction)。
- 缺点：
  - 在得到一个near-optimality的resulting policy上缺少可靠的保证。
  - Convergence is guaranteed in very limited settings.

1. 用策略与环境互动。
2. Critic：根据互动结果，用TD或者MC学习Value值。
3. Agent：然后用这个Value值来policy gradient，更新policy。
4. 用更新了的policy再去环境互动。

posted @ 2021-12-22 20:04 xxxuanei 阅读(216) 评论(0) 编辑收藏举报

刷新页面返回顶部