会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
柒月
春風鳥語 流火七月
博客园
首页
新随笔
联系
订阅
管理
2019年7月3日
强化学习(四)用蒙特卡罗法(MC)求解
摘要: 在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型P都无法知道,这时动态规划法根本没法使用
阅读全文
posted @ 2019-07-03 15:17 瘋耔
阅读(300)
评论(0)
推荐(0)
编辑
跳至侧栏