摘要: 基于表格法求解RL 中相关概念 含义 S state 状态(observe) A action 动作 R reward 奖励 P probability 状态转移概率 MDP Markov Decision Processes 马尔科夫决策过程(强化学习的基本框架) TD Temporal Diff 阅读全文
posted @ 2020-06-26 21:03 biiigwang 阅读(260) 评论(0) 推荐(0) 编辑