会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
python我的最爱
坚持每天分享一个深度学习的知识点
博客园
首页
新随笔
联系
订阅
管理
2019年4月8日
深度学习实战-强化学习-九宫格 当前奖励值 = max(及时奖励 + 下一个位置的奖励值 * 奖励衰减)
摘要: 强化学习使用的是bellmen方程,即当前奖励值 = max(当前位置的及时奖励 + discout_factor * 下一个方向的奖励值) discount_factor表示奖励的衰减因子 使用的是预先制造好的九宫格的类 代码说明: env.nA,即每个位置的下一个方向的个数为4 env.nS 表
阅读全文
posted @ 2019-04-08 11:31 python我的最爱
阅读(969)
评论(0)
推荐(0)
编辑