2024 年 6月 4 日随笔档案 - zhaot1993

2024年6月4日

摘要：西瓜书强化学习任务通常用马尔可夫决策过程 (Markov Decision Process，简称 MDP)来描述机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境机器要做的是通过在环境中不断地尝试而学得一个"策略" (policy) π，根据这个策略，在状态阅读全文

posted @ 2024-06-04 20:32 zhaot1993 阅读(34) 评论(0) 推荐(0) 编辑

公告

昵称： zhaot1993
园龄： 4年9个月
粉丝： 9
关注： 0

+加关注

随笔分类 (110)

编程(73)
交易(10)
论文(13)
闲书(14)

zhaot1993

公告

积分与排名

随笔分类 (110)