会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
//
// // //
努力的孔子
2019年2月22日
强化学习8-时序差分控制离线算法Q-Learning
摘要: Q-Learning和Sarsa一样是基于时序差分的控制算法,那两者有什么区别呢? 这里已经必须引入新的概念 时序差分控制算法的分类:在线和离线 在线控制算法:一直使用一个策略选择动作和更新价值函数,如Sarsa 离线控制算法:两个策略,一个选择新的动作,一个更新价值函数,如Q-Learning Q
阅读全文
posted @ 2019-02-22 09:20 努力的孔子
阅读(875)
评论(0)
推荐(0)
编辑
导航
博客园
首页
新随笔
新文章
联系
订阅
管理