2020 年 9月 3 日随笔档案 - Tolshao

2020年9月3日

摘要： RL实践1——值迭代求解随机策略参考自叶强《强化学习》第三讲，方格世界—— 使用动态规划求解随机策略动态规划的使用条件时MDP已知，在简单游戏中，这个条件时显然成立的使用Value iteration的方法求解每个状态的价值函数，迭代收敛之后，对应最优策略生成。注意：动态规划和强化学习都用的价值函数，区别在于动态规划需要基于模型获取采取动作后下一时刻的状态，已进行评估，需要MDP模型已知；强化... 阅读全文

posted @ 2020-09-03 15:34 Tolshao 阅读(360) 评论(0) 推荐(0) 编辑

RL实践2——RL环境gym搭建

摘要： RL回顾首先先来回顾一下强化学习问题中，环境Env 和代理Agent 分别承担的角色和作用。RL组成要素是Agent、Env代理和环境分别承担的作用 Agent：由Policy 和 RL_Algorithm构成，这种对RL_algorithm的算法理解比较宽泛policy负责将observation映射为actionRL_Algorithm负责优化policy，具有学习和搜索（规划）的能力 ... 阅读全文

posted @ 2020-09-03 11:40 Tolshao 阅读(844) 评论(0) 推荐(0) 编辑

Tolshao

公告