10 2018 档案

摘要:上篇总结了 Model Free Predict 问题及方法,本文内容介绍 Model Free Control 方法,即 "Optimise the value function of an unknown MDP"。 在这里说明下,Model Free Predict/Control 不仅适用于 阅读全文
posted @ 2018-10-31 10:40 Poll的笔记 阅读(2447) 评论(2) 推荐(0) 编辑
摘要:上篇文章介绍了 Model based 的通用方法——动态规划,本文内容介绍 Model Free 情况下 Prediction 问题,即 "Estimate the value function of an unknown MDP"。 Model based:MDP已知,即转移矩阵和奖赏函数均已知 阅读全文
posted @ 2018-10-30 09:37 Poll的笔记 阅读(2012) 评论(1) 推荐(2) 编辑
摘要:动态规划 动态规划(Dynamic Programming,简称DP)是一种通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。 动态规划常常适用于具有如下性质的问题: 具有最优子结构(Optimal substructure) Principle of optimality applies 阅读全文
posted @ 2018-10-29 09:26 Poll的笔记 阅读(5488) 评论(0) 推荐(1) 编辑
摘要:在介绍马尔可夫决策过程之前,我们先介绍下情节性任务和连续性任务以及马尔可夫性。 情节性任务 vs. 连续任务 情节性任务(Episodic Tasks),所有的任务可以被可以分解成一系列情节,可以看作为有限步骤的任务。 连续任务(Continuing Tasks),所有的任务不能分解,可以看作为无限 阅读全文
posted @ 2018-10-28 10:05 Poll的笔记 阅读(9637) 评论(0) 推荐(3) 编辑
摘要:随着AlphaGo和AlphaZero的出现,强化学习相关算法在这几年引起了学术界和工业界的重视。最近也翻了很多强化学习的资料,有时间了还是得自己动脑筋整理一下。 强化学习定义 先借用维基百科上对强化学习的标准定义: 强化学习(Reinforcement Learning,简称RL)是机器学习中的一 阅读全文
posted @ 2018-10-27 17:53 Poll的笔记 阅读(8268) 评论(1) 推荐(3) 编辑

点击右上角即可分享
微信分享提示