2019 年 4月 15 日随笔档案 - JinyuBlog

2019年4月15日

摘要： Monte Carlo算法是否能够做到一步更新，即在线学习？答案显然是不能，如果可以的话，TD算法还有何存在的意义？MC算法必须要等到episode结束后才可以进行值估计的主要原因在于对Return（或是估计目标）的定义与TD算法不同。强化学习中所估计的状态动作对价值实质上就是在某一策略下，以这个阅读全文

posted @ 2019-04-15 14:37 JinyuBlog 阅读(360) 评论(0) 推荐(0) 编辑

JinyuBlog

公告