会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Lucas_Yu
The blogs of Mr6 cover his work in clinical domain with the toolkit including statistics and machine learning and DoE etc..
博客园
首页
新随笔
联系
订阅
管理
强化学习----动态规划
对于马尔可夫决策过程,环境的知识是已知的,各种转移概率是知道,在有限的策略空间和状态空间下是可以求解的。 本处提供了两种优化策略的通用方式,主要还是迭代策略在该场景中的应用,并无太多特殊之处。
对于马尔可夫决策过程,环境的知识是已知的,各种转移概率是知道,在有限的策略空间和状态空间下是可以求解的。
本处提供了两种优化策略的通用方式,主要还是迭代策略在该场景中的应用,并无太多特殊之处。
posted @
2018-12-12 10:44
Lucas_Yu
阅读(
172
) 评论(
0
)
收藏
举报
刷新页面
返回顶部
公告