摘要: RL实践1——值迭代求解随机策略参考自叶强《强化学习》第三讲,方格世界—— 使用 动态规划 求解随机策略动态规划的使用条件时MDP已知,在简单游戏中,这个条件时显然成立的使用Value iteration的方法求解每个状态的价值函数,迭代收敛之后,对应最优策略生成。注意:动态规划和强化学习都用的价值函数,区别在于动态规划需要基于模型获取采取动作后下一时刻的状态,已进行评估,需要MDP模型已知;强化... 阅读全文
posted @ 2020-09-03 15:34 Tolshao 阅读(334) 评论(0) 推荐(0) 编辑
摘要: RL回顾首先先来回顾一下强化学习问题中,环境Env 和 代理Agent 分别承担的角色和作用。RL组成要素是Agent、Env代理和环境 分别承担的作用 Agent: 由Policy 和 RL_Algorithm构成,这种对RL_algorithm的算法理解比较宽泛policy负责将observation映射为actionRL_Algorithm负责优化policy,具有学习和搜索(规划)的能力 ... 阅读全文
posted @ 2020-09-03 11:40 Tolshao 阅读(799) 评论(0) 推荐(0) 编辑