会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
zhaot1993
首页
管理
2024年6月4日
西瓜书与d2l笔记
摘要: 西瓜书 强化学习任务通常用马尔可夫决策过程 (Markov Decision Process,简称 MDP)来描述机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境 机器要做的是通过在环境中不断地尝试而学得一个"策略" (policy) π,根据这个策略,在状态
阅读全文
posted @ 2024-06-04 20:32 zhaot1993
阅读(24)
评论(0)
推荐(0)
编辑
公告