lec-6-Actor-Critic Algorithms

从PG→Policy evaluation

  • 更多样本的均值+Causality+Baseline 减少variance
  • 只要拟合估计Q、V:这需要两个网络
  • Value function fitting(即策略评估)
    近似:
  • MC evaluation

    一种更好的方法:自举

从evaluation→AC

  • 拟合V进行评估,提升policy

    • V网络的更新:
    • 策略网络policy的更新:
  • 在RL基本流程图中:

  • 改进方法

    • 折扣因子:对近期回报的偏好程度
    • 折扣因子(MC方法)的分配:
  • 改进设计

    • 网络架构设计:两个独立网络变成共享网络(共享内部信息来加快训练速度)
    • Online
      • 同步并行A2C
      • 异步并行A3C
    • Offline
      • Replay buffer
  • Critics(V) as baselines

    • 状态独立baselines(单个样本的期望估计-V):无偏,低variance
      • AC:低variance,有偏(目标值和估计值都由V影响)
      • PG:高variance(单样本估计),无偏
    • 动作独立的baselines: 会出现不正确的
    • n-step returns
      • n越大,偏差越小,方差越高
    • GAE

Resource:CS285官网资料
版权归原作者 Lee_ing 所有
未经原作者允许不得转载本文内容,否则将视为侵权;转载或者引用本文内容请注明来源及原作者

posted @ 2022-05-09 15:57  lee_ing  阅读(37)  评论(0编辑  收藏  举报