摘要: 强化学习使用的是bellmen方程,即当前奖励值 = max(当前位置的及时奖励 + discout_factor * 下一个方向的奖励值) discount_factor表示奖励的衰减因子 使用的是预先制造好的九宫格的类 代码说明: env.nA,即每个位置的下一个方向的个数为4 env.nS 表 阅读全文
posted @ 2019-04-08 11:31 python我的最爱 阅读(957) 评论(0) 推荐(0) 编辑