摘要:
前面已经讲了强化学习的基本方法:基于动态规划的方法,基于蒙特卡罗的方法和基于时间差分的方法。这些方法有一个基本的前提条件,那就是状态空间和动作空间是离散的,而且状态空间和动作空间不能太大。 我们回想一下已经介绍的强化学习方法的基本步骤是:首先评估值函数,接着利用值函数改进当前的策略。其中值函数的评估 阅读全文
摘要:
强化学习入门第四讲 时间差分方法 上一节我们已经讲了无模型强化学习最基本的方法蒙特卡罗方法。本节,我们讲另外一个无模型的方法时间差分的方法。 图4.1 强化学习算法分类 时间差分(TD)方法是强化学习理论中最核心的内容,是强化学习领域最重要的成果,没有之一。与动态规划的方法和蒙特卡罗的方法比,时间差 阅读全文
摘要:
强化学习基础 第三讲 蒙特卡罗方法 上一节课我们讲了已知模型时,利用动态规划的方法求解马尔科夫决策问题。从这节课开始,我们讲无模型的强化学习算法。 图3.1 强化学习方法分类 解决无模型的马尔科夫决策问题是强化学习算法的精髓。如图3.1所示,无模型的强化学习算法主要包括蒙特卡罗方法和时间差分方法。这 阅读全文
摘要:
强化学习基础 第二讲 基于模型的动态规划算法 上一讲我们将强化学习的问题纳入到马尔科夫决策过程的框架下进行解决。一个完整的已知模型的马尔科夫决策过程可以利用元组来表示。其中 为状态集,为动作集, 为转移概率,也就是对应着环境和智能体的模型,为回报函数,为折扣因子用来计算累积回报。累积回报公式为,其中 阅读全文
摘要:
强化学习入门第一讲 马尔科夫决策过程 强化学习算法理论的形成可以追溯到上个世纪七八十年代,近几十年来强化学习算法一直在默默地不断进步,真正火起来是最近几年。代表性的事件是DeepMind 团队于2013年12月首次展示了机器利用强化学习算法在雅达利游戏中打败人类专业玩家,其成果在2015年发布于顶级 阅读全文