02 2021 档案

周博磊老师强化学习纲领笔记第三课：无模型的价值函数估计和控制

摘要：第三课：Model-free prediction和Model-free control 什么是MDP已知？：马尔可夫决策过程中它的奖励 \(R\) 以及状态转移概率矩阵 \(P\) 都是暴露给agent的，就是环境是提前提供给你的，你是已知的。所以我们能够用策略迭代的方法policy iter 阅读全文

posted @ 2021-02-13 16:48 gy77 阅读(403) 评论(0) 推荐(0)

一届书生

本博客所有内容以学习、研究和分享为主，如需转载，请标明作者和出处，并且是非商业用途，谢谢。

02 2021 档案

公告