Lecture 2: Markov Decision Processes

1.MDPs介绍

    1)马尔可夫决策过程正式描述了强化学习的环境,并且环境是可观测的

    2)当前状态完全刻画了整个过程

    3)几乎所有的强化学习问题都可以描述成为MDPs,比如

       最优控制优先使用连续MDPs

       部分可观测问题可以转换为MDPs

      “侠盗飞车”也是状态相关的MDPs

2.马尔可夫特性:即无记忆性。也就是说,这一时刻的状态,受且只受前一时刻的影响,而不受更往前时刻的状态的影响。

 3. Markov Reward Process(马尔可夫链包括奖励值)

    折扣因子趋近于零说明未来对现状影响较小,折扣因子趋近于1说明未来对现状影响较大

4.Bellman方程

   

5.Markov Decision Process 是一种带决策的MRP,并且是一种所有状态都符合马尔可夫属性的环境

 

 

   

 

posted @ 2017-03-31 15:51  陈煜弘  阅读(385)  评论(0编辑  收藏  举报