会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
微笑sun
博客园
首页
新随笔
联系
订阅
管理
2018年11月14日
强化学习(一)—— 基本概念及马尔科夫决策过程(MDP)
摘要: 1、策略与环境模型 强化学习是继监督学习和无监督学习之后的第三种机器学习方法。强化学习的整个过程如下图所示: 具体的过程可以分解为三个步骤: 1)根据当前的状态 $s_t$ 选择要执行的动作 $ a_t $。 2)根据当前的状态 $s_t $ 和动作 $ a_t$ 选择转移后的状态 $s_{t+1}
阅读全文
posted @ 2018-11-14 20:20 微笑sun
阅读(2905)
评论(0)
推荐(1)
编辑
公告