Loading

摘要: 接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率$P_{sa}$ 状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态值函数。 相对的,蒙特卡罗方法的特点则有: 可以从经验中学 阅读全文
posted @ 2016-01-09 14:22 Kintoki 阅读(51562) 评论(4) 推荐(14) 编辑