会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
微笑sun
博客园
首页
新随笔
联系
订阅
管理
2019年2月20日
强化学习(五)—— 策略梯度及reinforce算法
摘要: 1 概述 在该系列上一篇中介绍的基于价值的深度强化学习方法有它自身的缺点,主要有以下三点: 1)基于价值的强化学习无法很好的处理连续空间的动作问题,或者时高维度的离散动作空间,因为通过价值更新策略时是需要对每个动作下的价值函数的大小进行比较的,因此在高维或连续的动作空间下是很难处理的。 2)在基于价
阅读全文
posted @ 2019-02-20 16:23 微笑sun
阅读(5139)
评论(0)
推荐(1)
编辑
公告