Lecture 2: Markov Decision Processes
1.MDPs介绍
1)马尔可夫决策过程正式描述了强化学习的环境,并且环境是可观测的
2)当前状态完全刻画了整个过程
3)几乎所有的强化学习问题都可以描述成为MDPs,比如
最优控制优先使用连续MDPs
部分可观测问题可以转换为MDPs
“侠盗飞车”也是状态相关的MDPs
2.马尔可夫特性:即无记忆性。也就是说,这一时刻的状态,受且只受前一时刻的影响,而不受更往前时刻的状态的影响。
3. Markov Reward Process(马尔可夫链包括奖励值)
折扣因子趋近于零说明未来对现状影响较小,折扣因子趋近于1说明未来对现状影响较大
4.Bellman方程
5.Markov Decision Process 是一种带决策的MRP,并且是一种所有状态都符合马尔可夫属性的环境