2019 年 3月 12 日随笔档案 - yijun0730

2019年3月12日

10. 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

摘要：上一篇讲了集成基于模型与不基于模型的强化学习框架Dyna，这一篇介绍另一种集成基于模型与不基于模型的强化学习框架基于模拟的搜索(Simulation Based Search)。基于模拟的意思是，我们不是与环境交互获得真实的数据，而是基于模型进行采样得到训练样本。搜索则是为了利用模拟得到的训练样本阅读全文

posted @ 2019-03-12 15:50 yijun0730 阅读(335) 评论(0) 推荐(0) 编辑

9. 基于模型的强化学习与Dyna2

摘要：在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)，本篇我们讨论最后一种强化学习流派，基于模型的强化学习(Model Based RL)，以及基于模型的强化学习算法框架Dyna。基于价值的强化学习模型和基于策略的强化学习模型阅读全文

posted @ 2019-03-12 11:15 yijun0730 阅读(1129) 评论(0) 推荐(0) 编辑

yijun0730

10. 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

9. 基于模型的强化学习与Dyna2

导航