2020 年 8月 29 日随笔档案 - feifanren

2020年8月29日

摘要：一.学习目标了解基于价值和基于策略的强化学习之间的区别了解REINFORCE算法（蒙特卡洛策略梯度）了解Actor-Critic（AC）算法了解优势函数了解确定性策略梯度（可选）了解如何使用异步Actor-Critic算法和神经网络扩展Policy Gradient方法（可选） 1.了解阅读全文

posted @ 2020-08-29 12:13 feifanren 阅读(496) 评论(0) 推荐(0) 编辑

feifanren

公告