2022 年 7月 5 日随笔档案 - climerecho

摘要：

RL中的价值学习和策略学习分别基于不同的思路完成对 agent 的自动控制，而actor-critic将两者结合在一起，策略网络扮演运动员的角色，价值网络扮演裁判的角色，分别训练，得到较为满意的结果。阅读全文

posted @ 2022-07-05 18:37 climerecho 阅读(2137) 评论(0) 推荐(2) 编辑

摘要：

继续学习强化学习，介绍强化学习另一大分支策略学习，以及策略学习的一种经典实现方式Policy Network，以及策略网络的训练算法策略梯度算法。阅读全文

posted @ 2022-07-05 11:55 climerecho 阅读(983) 评论(0) 推荐(0) 编辑

Clivia Du