2019 年 5月 23 日随笔档案 - 山竹小果

2019年5月23日

摘要： Outline Actor-Critic 优势函数自然策略梯度策略梯度算法总结 Actor-Critic 学习价值函数，也学习策略。使用Critic减少方差：蒙特卡洛策略梯度具有高方差。使用critic来评估动作- 价值函数： Actor-critic 算法包含两组参数：Critic 更新阅读全文

posted @ 2019-05-23 22:15 山竹小果阅读(760) 评论(0) 推荐(0) 编辑

公告