摘要: 上篇文章介绍了 Model based 的通用方法——动态规划,本文内容介绍 Model Free 情况下 Prediction 问题,即 "Estimate the value function of an unknown MDP"。 Model based:MDP已知,即转移矩阵和奖赏函数均已知 阅读全文
posted @ 2018-10-30 09:37 Poll的笔记 阅读(1997) 评论(1) 推荐(2) 编辑