摘要: Monte Carlo算法是否能够做到一步更新,即在线学习? 答案显然是不能,如果可以的话,TD算法还有何存在的意义?MC算法必须要等到episode结束后才可以进行值估计的主要原因在于对Return(或是估计目标)的定义与TD算法不同。强化学习中所估计的状态动作对价值实质上就是在某一策略下,以这个 阅读全文
posted @ 2019-04-15 14:37 JinyuBlog 阅读(360) 评论(0) 推荐(0) 编辑