2018 年 9月 17 日随笔档案 - yunfeng_net

2018年9月17日

摘要：强化学习基本概念强化学习需要学习一个从环境状态到智能体行动的映射，称为智能体的一个策略，使得环境回报最大化。其环境通常采用 MDP 来定义。马尔可夫决策过程：$MDP = \{ S, A, P, R \} $ 状态转移的回报函数$R: S\times A\times S \to REAL$ 阅读全文

posted @ 2018-09-17 02:34 yunfeng_net 阅读(508) 评论(0) 推荐(0) 编辑

yunfeng_net

公告