摘要: 1、策略与环境模型 强化学习是继监督学习和无监督学习之后的第三种机器学习方法。强化学习的整个过程如下图所示: 具体的过程可以分解为三个步骤: 1)根据当前的状态 $s_t$ 选择要执行的动作 $ a_t $。 2)根据当前的状态 $s_t $ 和动作 $ a_t$ 选择转移后的状态 $s_{t+1} 阅读全文
posted @ 2018-11-14 20:20 微笑sun 阅读(2905) 评论(0) 推荐(1) 编辑