摘要: 强化学习 基本概念 强化学习需要学习一个从环境状态到智能体行动的映射,称为智能体的一个策略,使得环境回报最大化。 其环境通常采用 MDP 来定义。 马尔可夫决策过程:$MDP = \{ S, A, P, R \} $ 状态转移的回报函数$R: S\times A\times S \to REAL$ 阅读全文
posted @ 2018-09-17 02:34 yunfeng_net 阅读(508) 评论(0) 推荐(0) 编辑