会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
赵代码
博客园
首页
新随笔
联系
订阅
管理
2020年9月27日
马尔科夫决策过程和Bellman方程
摘要: 要求: 1.能够检测到理想的状态 2.可以多次尝试 3.系统的下个状态只与当前状态信息有关,而与更早之前的状态无关,在决策过程中还和当前采取的动作有关。 马尔科夫决策过程由五个元素组成: S:表示状态集(states) A:表示一组动作(actions) P:表示状态转移概率Psa表示在当前s∈S,
阅读全文
posted @ 2020-09-27 16:17 赵代码
阅读(458)
评论(0)
推荐(0)
编辑
公告