会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Loading
@张马也
首页
新随笔
联系
管理
2020年4月27日
蒙特卡罗法 (Monte Carlo Methods)
摘要: 在很多应用场景中,马尔可夫决策过程的状态转移概率 \(p(s^ {\prime}|s,a)\) 和奖励函数 \(r\left( {s,a,s^{\prime}} \right)\) 都是未知的。这种情况一般需要智能体与环境交互,然后收集一些样本,然后再根据这些样本来求解最优策略,这种基于采样的学习方
阅读全文
posted @ 2020-04-27 16:40 MayeZhang
阅读(1181)
评论(0)
推荐(0)
编辑
公告