AYE89

coding & learning

导航

2017年9月17日

摘要: 一、任务与奖赏 我们执行某个操作a时,仅能得到一个当前的反馈r(可以假设服从某种分布),这个过程抽象出来就是“强化学习”。 强化学习任务通常用马尔可夫决策过程MDP来描述: 强化学习任务的四要素 E = <X, A, P, R> E:机器处于的环境 X:状态空间 A:动作空间 P:状态转移概率 R: 阅读全文

posted @ 2017-09-17 16:08 AYE89 阅读(2823) 评论(0) 推荐(0) 编辑