2017 年 12月 1 日随笔档案 - 小时候挺菜

2017年12月1日

摘要：前面已经讲了强化学习的基本方法：基于动态规划的方法，基于蒙特卡罗的方法和基于时间差分的方法。这些方法有一个基本的前提条件，那就是状态空间和动作空间是离散的，而且状态空间和动作空间不能太大。我们回想一下已经介绍的强化学习方法的基本步骤是：首先评估值函数，接着利用值函数改进当前的策略。其中值函数的评估阅读全文

posted @ 2017-12-01 14:34 小时候挺菜阅读(988) 评论(0) 推荐(0) 编辑

强化学习入门第四讲时间差分方法

摘要：强化学习入门第四讲时间差分方法上一节我们已经讲了无模型强化学习最基本的方法蒙特卡罗方法。本节，我们讲另外一个无模型的方法时间差分的方法。图4.1 强化学习算法分类时间差分(TD)方法是强化学习理论中最核心的内容，是强化学习领域最重要的成果，没有之一。与动态规划的方法和蒙特卡罗的方法比，时间差阅读全文

posted @ 2017-12-01 14:33 小时候挺菜阅读(2024) 评论(1) 推荐(0) 编辑

强化学习基础第三讲蒙特卡罗方法

摘要：强化学习基础第三讲蒙特卡罗方法上一节课我们讲了已知模型时，利用动态规划的方法求解马尔科夫决策问题。从这节课开始，我们讲无模型的强化学习算法。图3.1 强化学习方法分类解决无模型的马尔科夫决策问题是强化学习算法的精髓。如图3.1所示，无模型的强化学习算法主要包括蒙特卡罗方法和时间差分方法。这阅读全文

posted @ 2017-12-01 14:32 小时候挺菜阅读(812) 评论(0) 推荐(0) 编辑

强化学习基础第二讲基于模型的动态规划算法

摘要：强化学习基础第二讲基于模型的动态规划算法上一讲我们将强化学习的问题纳入到马尔科夫决策过程的框架下进行解决。一个完整的已知模型的马尔科夫决策过程可以利用元组来表示。其中为状态集，为动作集，为转移概率，也就是对应着环境和智能体的模型，为回报函数，为折扣因子用来计算累积回报。累积回报公式为，其中阅读全文

posted @ 2017-12-01 14:31 小时候挺菜阅读(1814) 评论(0) 推荐(0) 编辑

强化学习入门第一讲马尔科夫决策过程

摘要：强化学习入门第一讲马尔科夫决策过程强化学习算法理论的形成可以追溯到上个世纪七八十年代，近几十年来强化学习算法一直在默默地不断进步，真正火起来是最近几年。代表性的事件是DeepMind 团队于2013年12月首次展示了机器利用强化学习算法在雅达利游戏中打败人类专业玩家，其成果在2015年发布于顶级阅读全文

posted @ 2017-12-01 14:18 小时候挺菜阅读(715) 评论(0) 推荐(1) 编辑

公告