会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
g
y
7
7
7
7
一届书生
本博客所有内容以学习、研究和分享为主,如需转载,请标明作者和出处,并且是非商业用途,谢谢。
新随笔
联系
管理
02 2021 档案
周博磊老师强化学习纲领笔记第三课:无模型的价值函数估计和控制
摘要:第三课:Model-free prediction和Model-free control 什么是MDP已知?: 马尔可夫决策过程中它的奖励 \(R\) 以及状态转移概率矩阵 \(P\) 都是暴露给agent的,就是环境是提前提供给你的,你是已知的。 所以我们能够用策略迭代的方法policy iter
阅读全文
posted @
2021-02-13 16:48
gy77
阅读(286)
评论(0)
推荐(0)
编辑
公告