2019 年 4月 8 日随笔档案 - python我的最爱

2019年4月8日

深度学习实战-强化学习-九宫格当前奖励值 = max(及时奖励 + 下一个位置的奖励值 * 奖励衰减)

摘要：强化学习使用的是bellmen方程，即当前奖励值 = max(当前位置的及时奖励 + discout_factor * 下一个方向的奖励值) discount_factor表示奖励的衰减因子使用的是预先制造好的九宫格的类代码说明： env.nA,即每个位置的下一个方向的个数为4 env.nS 表阅读全文

posted @ 2019-04-08 11:31 python我的最爱阅读(969) 评论(0) 推荐(0) 编辑