机器学习工程师 - Udacity 强化学习 Part Seven
摘要:
七、连续空间中的强化学习 1.复习强化学习强化学习问题通常都会转化为马尔可夫决策流程,简称 MDP。一个 MDP 由一组状态 S 动作 A 概率 P 奖励 R 和折扣因子 γ 组成。P 表示不同转换和奖励的发生频率,通常建模为单个联合概率。任何时间步 t+1 的状态和奖励仅依赖于在上个时间步 t 的 阅读全文
posted @ 2019-02-27 20:59 paulonetwo 阅读(369) 评论(0) 推荐(0) 编辑