摘要: 数学模型:马尔可夫决策过程$(MDP)$ 强化学习方法形式化为$MDP$,$MDP$是序列决策算法的一般数学框架 通常将$MDP$表示为四元组$(S,A,P,R)$: $S$表示状态空间,是描述环境的状态,表示为$S={s_1,s_2,s_3,...}$ $A$表示行动空间,是智能体可执行的行动,表 阅读全文
posted @ 2021-02-04 12:58 DemonSlayer 阅读(113) 评论(0) 推荐(0) 编辑