会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
feifanren
博客园
首页
新随笔
联系
订阅
管理
2020年8月29日
强化学习学习笔记:Policy Gradient Methods
摘要: 一.学习目标 了解基于价值和基于策略的强化学习之间的区别 了解REINFORCE算法(蒙特卡洛策略梯度) 了解Actor-Critic(AC)算法 了解优势函数 了解确定性策略梯度(可选) 了解如何使用异步Actor-Critic算法和神经网络扩展Policy Gradient方法(可选) 1.了解
阅读全文
posted @ 2020-08-29 12:13 feifanren
阅读(496)
评论(0)
推荐(0)
编辑
公告