2021 年 2月 4 日随笔档案 - DemonSlayer

2021年2月4日

摘要：数学模型：马尔可夫决策过程$(MDP)$ 强化学习方法形式化为$MDP$，$MDP$是序列决策算法的一般数学框架通常将$MDP$表示为四元组$(S,A,P,R)$： $S$表示状态空间，是描述环境的状态，表示为$S={s_1,s_2,s_3,...}$ $A$表示行动空间，是智能体可执行的行动，表阅读全文

posted @ 2021-02-04 12:58 DemonSlayer 阅读(113) 评论(0) 推荐(0) 编辑

DemonSlayer

花无凋零之日，意无传递之时，爱情亘古不变，紫罗兰永世长存。

公告