摘要: 一.学习目标 了解基于价值和基于策略的强化学习之间的区别 了解REINFORCE算法(蒙特卡洛策略梯度) 了解Actor-Critic(AC)算法 了解优势函数 了解确定性策略梯度(可选) 了解如何使用异步Actor-Critic算法和神经网络扩展Policy Gradient方法(可选) 1.了解 阅读全文
posted @ 2020-08-29 12:13 feifanren 阅读(496) 评论(0) 推荐(0) 编辑