03 2019 档案

强化学习(十九) AlphaGo Zero强化学习原理

摘要：在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中，我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上，讨论下DeepMind的AlphaGo Zero强化学习原理。本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaG 阅读全文

posted @ 2019-03-27 20:11 刘建平Pinard 阅读(38782) 评论(69) 推荐(14) 编辑

强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

摘要：在强化学习(十七) 基于模型的强化学习与Dyna算法框架中，我们讨论基于模型的强化学习方法的基本思路，以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法：基于模拟的搜索(Simulation Based Search)。本篇主要参阅读全文

posted @ 2019-03-04 17:09 刘建平Pinard 阅读(48764) 评论(29) 推荐(5) 编辑

公告

★珠江追梦，饮岭南茶，恋鄂北家★

你的支持是我写作的动力：

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

03 2019 档案

公告

积分与排名

随笔分类 (135)

随笔档案 (135)

常去的机器学习网站

阅读排行榜

评论排行榜

推荐排行榜