会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
//
// // //
努力的孔子
2019年2月20日
强化学习7-Sarsa
摘要: 之前讲到时序差分是目前主流强化学习的基本思路,这节就学习一下主流算法之一 Sarsa模型。 Sarsa 是免模型的控制算法,是通过更新状态动作价值函数来得到最优策略的方法。 更新方法 Q(S,A)=Q(S,A)+α(R+γQ(S′,A′)−Q(S,A)) // 回顾一下蒙特卡罗的更新方式 Q(S,A
阅读全文
posted @ 2019-02-20 18:00 努力的孔子
阅读(1199)
评论(0)
推荐(2)
编辑
导航
博客园
首页
新随笔
新文章
联系
订阅
管理