Lecture 4: Model-Free Prediction

1.Monte-Carlo Reinforcement Learning

   a)MC方法直接从经历中的episodes中学习

   b)MC方法是无模型的,

   c)从完整的episodes中学习:而不是走一步学学一步(bootstrapping)

   d)注意:只能将MC方法应用到episodic MDPs,而且所有的episodes必须终止。

2.Temporal-Di↵erence Learning

   a)TD方法直接从经历中的episodes中学习

   b)MC方法是无模型的

   c) 从不完整的episodes中学习,by bootstrapping 

   d) TD从一个猜测中更新猜测

3.TD能在获知最终结果前学习

   a) TD能在每步中在线学习

   b) MC必须等到一个episode结束才能获知最终结果

   TD能够在没有最终输出的过程中学习

     a) TD能够从不完整的雪猎中学习

     b) MC只能从完整的序列中学习

     c) TD 在连续的环境中工作

     d)MC只能在有终结序列的环境中工作

4.   是 的无偏估计,

       

      

5.TD利用了Markov属性,通常在Markov环境中更为有效

    MC没有利用Markov属性,通常在非Markov环境中更加有效

6. TD( λ ) 与MC都只能用于完整的episodes

 

 

      

 

posted @ 2017-04-14 21:37  陈煜弘  阅读(273)  评论(0编辑  收藏  举报