会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
zhaot1993
首页
管理
随笔 - 110
文章 - 0
评论 - 0
阅读 -
40420
2024年6月4日
西瓜书与d2l笔记
摘要: 西瓜书 强化学习任务通常用马尔可夫决策过程 (Markov Decision Process,简称 MDP)来描述机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境 机器要做的是通过在环境中不断地尝试而学得一个"策略" (policy) π,根据这个策略,在状态
阅读全文
posted @ 2024-06-04 20:32 zhaot1993
阅读(34)
评论(0)
推荐(0)
编辑
公告
昵称:
zhaot1993
园龄:
4年9个月
粉丝:
9
关注:
0
+加关注
积分与排名
积分 - 40624
排名 - 41498
随笔分类
(110)
编程(73)
交易(10)
论文(13)
闲书(14)
点击右上角即可分享