会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Quantum-Cheese
博客园
首页
新随笔
联系
订阅
管理
2020年4月28日
深度强化学习-策略梯度类算法梳理笔记
摘要:
Policy Gradient 类的算法是通过梯度计算去更新策略网络的参数,因此目标函数就直接设计成期望累积奖励。这个期望值有多种表达方式,也就对应着不同的具体算法对损失函数的不同计算方法。这里总结的Policy Gradient 类的算法包括:Reinforce,受限策略梯度,PPO1 和 PPO2。对这几种算法的损失函数设计和流程做了归纳和对比。
阅读全文
posted @ 2020-04-28 17:06 Quantum-Cheese
阅读(425)
评论(0)
推荐(0)
编辑
公告