摘要:
Temporal Difference Learning TD在强化学习中处于中心位置,它结合了DP与MC两种思想。如MC, TD可以直接从原始经验中学习,且不需要对环境有整体的认知。也如DP一样,它不需要等到最终结果才开始学习,它Bootstrap,即它的每步估计会部分地基于之前的估计。 最简单的 阅读全文
摘要:
Monte Carlo Methods MC方法不需要对环境完全了解,只需要可以从环境中采样即可。MC方法基于平均样品收益(Averaging Sample Returns)。通常,MC方法应用于片段式任务(Episodic Tasks)。 Monte Carlo Prediction First 阅读全文
摘要:
Dynamic Programming DP指的是一套算法集,这样的算法集在环境模型是一种马尔可夫决策过程且已知的情况下,可以用于计算得到最优的决策。由于要求已知完美的模型且计算量极大,DP的实用性不强,但其理论意义是很重要的。因为在强化学习后面接触的算法都是企图克服完美模型假定与大量计算并得到与D 阅读全文
摘要:
Finite Markov Decision Process 马尔可夫决策过程(MDP)是对连续决策进行建模,当前的动作不仅对当前产生影响,而且还会对将来的的情况产生影响,如果从奖励的角度,即MDP不仅影响即时的奖励,而且还会影响将来的长期奖励,因此,MDP需要对即时奖励与长期奖励的获得进行权衡。 阅读全文
摘要:
今天开始连载强化学习,这个是以前看Reinforcement Learning: An Introduction 这本书做的笔记,最近发现Richard S. Sutton 和 Andrew G. Barto还在为本书更新,所以就想着把原来的笔记也更新一下,整理然后放在这里。 因为是笔记形式,所以这 阅读全文