摘要: 西瓜书 强化学习任务通常用马尔可夫决策过程 (Markov Decision Process,简称 MDP)来描述机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境 机器要做的是通过在环境中不断地尝试而学得一个"策略" (policy) π,根据这个策略,在状态 阅读全文
posted @ 2024-06-04 20:32 zhaot1993 阅读(10) 评论(0) 推荐(0) 编辑