会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
一丨
博客园
首页
新随笔
联系
订阅
管理
2021年10月18日
Sarsa与Q-learning
摘要: 算法流程图 Q-learning SARSA 对比:Q-learning算法根据当前状态 S 选择执行一个动作A,执行后观测执行后的奖励和转移到的状态S1。在状态S1下计算采取哪个a可以获得最大的Q值,并没有真的采取这个a。Q-learning选择到新状态之后能够得到的最大的Q值来更新当前的Q值。
阅读全文
posted @ 2021-10-18 20:12 一丨
阅读(302)
评论(0)
推荐(0)
编辑
公告