2017 年 9月 17 日随笔档案 - AYE89

2017年9月17日

【基础知识十六】强化学习

摘要：一、任务与奖赏我们执行某个操作a时，仅能得到一个当前的反馈r（可以假设服从某种分布），这个过程抽象出来就是“强化学习”。强化学习任务通常用马尔可夫决策过程MDP来描述：强化学习任务的四要素 E = <X, A, P, R> E：机器处于的环境 X：状态空间 A：动作空间 P：状态转移概率 R：阅读全文

posted @ 2017-09-17 16:08 AYE89 阅读(2843) 评论(0) 推荐(0) 编辑

AYE89

导航

公告

【基础知识十六】强化学习