初识Actor-Critic

什么是Actor-Critic

  • 之前通过李宏毅、莫烦Python的视频了解了Actor-Critic的基本概念。
  • 现在看看Actor-Critic的论文继续了解一下。

Critic-Only and Actor-Only

  • 这篇文章之前的算法是Critic-Only, or Actor-Only。
  • Actor-only:使用policy gradient,通过simulation来评估gradient好坏。
    • 缺点:主要是estimation上的问题。
      • gradient estimators可能由很大的方差variance。
      • A new gradient is estimated independently of past estimates. 也就是说对gradient的评估并没有很好的用过去的经验,并没有很好的“learning”
  • Critic-only:只有value function approximation,学习近似Bellman equation的solution, 希望学习出一个near-optimal policy。
    • 优点:
      • 也许可以在构造一个"good" approximation of value function上成功
      • 和actor-only相比收敛快 (due to variance reduction)。
    • 缺点:
      • 在得到一个near-optimality的resulting policy上缺少可靠的保证。
      • Convergence is guaranteed in very limited settings.

Brief Introduction of Actor-Critic

  • image-20211220144635858
    1. 用策略与环境互动。
    2. Critic:根据互动结果,用TD或者MC学习Value值。
    3. Agent:然后用这个Value值来policy gradient,更新policy。
    4. 用更新了的policy再去环境互动。

代码

  • 看莫烦python的代码

Reference

posted @ 2021-12-22 20:04  xxxuanei  阅读(216)  评论(0编辑  收藏  举报