会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
humanplug
博客园
首页
新随笔
联系
订阅
管理
2023年8月3日
强化学习——策略梯度之Reinforce
摘要: 1、策略梯度介绍 相比与DQN,策略梯度方法的区别主要在于,我们对于在某个状态下所采取的动作,并不由一个神经网络来决定,而是由一个策略函数来给出,而这个策略函数的目的,就是使得最终的奖励的累加和最大,这也是训练目标,所以训练会围绕策略函数的梯度来进行。 2、策略函数 以Reinforce算法为例,
阅读全文
posted @ 2023-08-03 17:59 想成为编程高手的阿曼
阅读(228)
评论(0)
推荐(0)
编辑
公告