会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
LIN_KID
博客园
首页
新随笔
联系
订阅
管理
2019年9月16日
强化学习第七章
摘要: 1、策略迭代、价值迭代、泛化迭代的前提条件:智能体知道环境的状态转移概率,即是基于模型的问题 2、蒙特卡洛方法采样:随机采样估计期望值,通过样本序列逼近真实的期望值。 成立原因:大数定理。 3、探索和利用,探索指的是不拘于当前的表现,选择不同于当前策略的行动;利用是持续使用当前的最优策略,尽可能的获
阅读全文
posted @ 2019-09-16 11:23 LIN_KID
阅读(274)
评论(0)
推荐(0)
编辑
公告