会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
yunfeng_net
博客园
首页
新随笔
联系
订阅
管理
2018年9月17日
强化学习基础
摘要: 强化学习 基本概念 强化学习需要学习一个从环境状态到智能体行动的映射,称为智能体的一个策略,使得环境回报最大化。 其环境通常采用 MDP 来定义。 马尔可夫决策过程:$MDP = \{ S, A, P, R \} $ 状态转移的回报函数$R: S\times A\times S \to REAL$
阅读全文
posted @ 2018-09-17 02:34 yunfeng_net
阅读(508)
评论(0)
推荐(0)
编辑
公告