随笔- 59
文章- 0
评论- 17
阅读-
18万
随笔分类 - Reinforcement Learning
蒙特卡洛树搜索(MonteCarlo Tree Search)MCTS 简述
摘要:蒙特卡洛树搜索(MonteCarlo Tree Search)MCTS AlphaGo, AlphaZero 的成功,让原本小众的MCTS火了一把。 MCTS算法的产生是以决策论、博弈论、蒙特卡洛方法以及老.虎.机算法为基础的。 在决策论中,主要涉及马尔可夫决策过程Markov Decision P
阅读全文
机器学习九 机器学习中常用的采样方法
摘要:采样方法 [TOC] 实际应用中,经常需要获得服从某一分布的样本集。不过,手动生成一般来说不太现实,需要求助于计算机,而计算机则只能实现对均匀分布进行抽样。其他的分布,甚至如高斯分布都是无法实现的。不过,通过均匀分布,可间接地生成服从其他分布的样本。这点很重要,下面会看到,所有的随机模拟都从均匀分布
阅读全文
强化学习(九):策略梯度
摘要:Policy Gradient Methods 之前学过的强化学习几乎都是所谓的‘行动-价值’方法,也就是说这些方法先是学习每个行动在特定状态下的价值,之后在每个状态,根据当每个动作的估计价值进行选择。这种方法可看成是一种‘间接’的方法,因为强化学习的目标是如何决策,这些方法把每个动作的价值作为指标
阅读全文
强化学习(八):Eligibility Trace
摘要:Eligibility Traces Eligibility Traces是强化学习中很基本很重要的一个概念。几乎所有的TD算法可以结合eligibility traces获得更一般化的算法,并且通常会更有效率。 Eligibility traces可以将TD和Monte Carlo算法统一起来。之
阅读全文
强化学习(七):计划与学习的关系
摘要:Planning and Learning with Tabular Methods 在强化学习中有一种划分方式可以将算法大体分成两大类,一类是需要模型来刻画环境的算法(model based),如动态编程和启发等;另一类算法则不需要环境模型(model free),如MC与TD等。model ba
阅读全文
强化学习(六):n-step Bootstrapping
摘要:n step Bootstrapping n step 方法将Monte Carlo 与 one step TD统一起来。 n step 方法作为 eligibility traces 的引入,eligibility traces 可以同时的在很多时间间隔进行bootstrapping. n ste
阅读全文
强化学习(五):时间差分学习
摘要:Temporal Difference Learning TD在强化学习中处于中心位置,它结合了DP与MC两种思想。如MC, TD可以直接从原始经验中学习,且不需要对环境有整体的认知。也如DP一样,它不需要等到最终结果才开始学习,它Bootstrap,即它的每步估计会部分地基于之前的估计。 最简单的
阅读全文
强化学习(四):蒙特卡洛方法
摘要:Monte Carlo Methods MC方法不需要对环境完全了解,只需要可以从环境中采样即可。MC方法基于平均样品收益(Averaging Sample Returns)。通常,MC方法应用于片段式任务(Episodic Tasks)。 Monte Carlo Prediction First
阅读全文
强化学习(三):动态规划
摘要:Dynamic Programming DP指的是一套算法集,这样的算法集在环境模型是一种马尔可夫决策过程且已知的情况下,可以用于计算得到最优的决策。由于要求已知完美的模型且计算量极大,DP的实用性不强,但其理论意义是很重要的。因为在强化学习后面接触的算法都是企图克服完美模型假定与大量计算并得到与D
阅读全文
强化学习(二):马尔可夫决策过程
摘要:Finite Markov Decision Process 马尔可夫决策过程(MDP)是对连续决策进行建模,当前的动作不仅对当前产生影响,而且还会对将来的的情况产生影响,如果从奖励的角度,即MDP不仅影响即时的奖励,而且还会影响将来的长期奖励,因此,MDP需要对即时奖励与长期奖励的获得进行权衡。
阅读全文
强化学习(一): 引入
摘要:今天开始连载强化学习,这个是以前看Reinforcement Learning: An Introduction 这本书做的笔记,最近发现Richard S. Sutton 和 Andrew G. Barto还在为本书更新,所以就想着把原来的笔记也更新一下,整理然后放在这里。 因为是笔记形式,所以这
阅读全文