2017 年 12月 7 日随笔档案 - 飞翔的拖拉机

2017年12月7日

摘要：大名鼎鼎的蒙特卡洛方法(MC)，源自于一个赌城的名字，作为一种计算方法，应用领域众多，主要用于求值。蒙特卡洛方法的核心思想就是：模拟抽样估值。蒙特卡洛的使用条件：1.环境是可模拟的；2.只适合情节性任务(episode tasks)。蒙特卡洛在强化学习中的应用： 1.完美信息博弈：围棋、象棋阅读全文

posted @ 2017-12-07 16:38 飞翔的拖拉机阅读(7089) 评论(0) 推荐(0) 编辑

强化学习总结（1）--EE问题

摘要：假设一个风投公司想使他的收益最大化,这时他总会面临一个两难问题: 何时去投资那些已经成功的公司？何时去投资那些还没有成功但具有很大潜力的公司？简单说就是，收益总是伴随着风险而存在. 这样的两难问题在日常生活中也是非常常见的，称为EE问题(Exploration and Exploitation tr 阅读全文

posted @ 2017-12-07 16:37 飞翔的拖拉机阅读(3602) 评论(0) 推荐(0) 编辑

强化学习总结（2）--马尔科夫决策

摘要： RL问题的基础就是马尔科夫决策过程(MDP)，因此，这一块内容虽然基础，但确是不得不总结的内容。网上虽然有很多博客、专栏介绍，但总感觉似是而非，有些还有些许错误。这里打算按照教材中的体系再度总结一下吧。这一块概念性的东西比较多，比如马尔科夫性质（无后效性），比如值函数、最优值函数、最优动作价值函数等阅读全文

posted @ 2017-12-07 16:37 飞翔的拖拉机阅读(1330) 评论(0) 推荐(0) 编辑

强化学习总结（3）--动态规划

摘要：动态规划是强化学习里面最基础的部分，其核心思想通用策略迭代(Generalized Policy Iteration,GPI)。首先强调一点，动态规划(Dynamic Programming)要求一个完全已知的环境模型，所谓完全已知，就是MDP的五元组全部已知，当然了，主要还是指状态转移概率已知阅读全文

posted @ 2017-12-07 16:37 飞翔的拖拉机阅读(4536) 评论(0) 推荐(3) 编辑

强化学习总结（0）—RL基本介绍

摘要：本人硕士期间就对RL比较感兴趣，当时AlpahGo还没火，可能更多是对于Strong AI的前景和未来有着较大期待吧，后来随着AlphaGo--Master zero版本的不断更新，再加上OpenAI的星际争霸等，RL逐步焕发出了新的生机。因此，自从2016年下半年开始断断续续地学习强化学习到现在，阅读全文

posted @ 2017-12-07 16:36 飞翔的拖拉机阅读(3596) 评论(0) 推荐(0) 编辑

飞翔的拖拉机

公告