会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
benda
博客园
首页
新随笔
联系
管理
订阅
2019年11月6日
强化学习 3. 有限马尔可夫决策过程
摘要: 有限马尔可夫MDP是序列决策的经典形式化表达,其动作不仅影响当前的即时收益,还影响后续的状态,以及未来的收益。【即时收益和延迟收益之间权衡的需求】 3.1 智能体 环境 交互接口 智能体【agent】:进行学习及实施决策的机器 环境【environment】:智能体之外所有能与其相互作用的实物 通过
阅读全文
posted @ 2019-11-06 13:56 benda
阅读(616)
评论(0)
推荐(0)
编辑
公告