摘要: 大名鼎鼎的蒙特卡洛方法(MC),源自于一个赌城的名字,作为一种计算方法,应用领域众多,主要用于求值。蒙特卡洛方法的核心思想就是:模拟 抽样 估值。 蒙特卡洛的使用条件:1.环境是可模拟的;2.只适合情节性任务(episode tasks)。 蒙特卡洛在强化学习中的应用: 1.完美信息博弈:围棋、象棋 阅读全文
posted @ 2017-12-07 16:38 飞翔的拖拉机 阅读(7043) 评论(0) 推荐(0) 编辑
摘要: 假设一个风投公司想使他的收益最大化,这时他总会面临一个两难问题: 何时去投资那些已经成功的公司?何时去投资那些还没有成功但具有很大潜力的公司?简单说就是,收益总是伴随着风险而存在. 这样的两难问题在日常生活中也是非常常见的,称为EE问题(Exploration and Exploitation tr 阅读全文
posted @ 2017-12-07 16:37 飞翔的拖拉机 阅读(3588) 评论(0) 推荐(0) 编辑
摘要: RL问题的基础就是马尔科夫决策过程(MDP),因此,这一块内容虽然基础,但确是不得不总结的内容。网上虽然有很多博客、专栏介绍,但总感觉似是而非,有些还有些许错误。这里打算按照教材中的体系再度总结一下吧。这一块概念性的东西比较多,比如马尔科夫性质(无后效性),比如值函数、最优值函数、最优动作价值函数等 阅读全文
posted @ 2017-12-07 16:37 飞翔的拖拉机 阅读(1323) 评论(0) 推荐(0) 编辑
摘要: 动态规划是强化学习里面最基础的部分,其核心思想 通用策略迭代(Generalized Policy Iteration,GPI)。 首先强调一点,动态规划(Dynamic Programming)要求一个完全已知的环境模型,所谓完全已知,就是MDP的五元组全部已知,当然了,主要还是指状态转移概率已知 阅读全文
posted @ 2017-12-07 16:37 飞翔的拖拉机 阅读(4479) 评论(0) 推荐(3) 编辑
摘要: 本人硕士期间就对RL比较感兴趣,当时AlpahGo还没火,可能更多是对于Strong AI的前景和未来有着较大期待吧,后来随着AlphaGo--Master zero版本的不断更新,再加上OpenAI的星际争霸等,RL逐步焕发出了新的生机。因此,自从2016年下半年开始断断续续地学习强化学习到现在, 阅读全文
posted @ 2017-12-07 16:36 飞翔的拖拉机 阅读(3588) 评论(0) 推荐(0) 编辑