2019年2月20日

强化学习7-Sarsa

摘要：之前讲到时序差分是目前主流强化学习的基本思路，这节就学习一下主流算法之一 Sarsa模型。 Sarsa 是免模型的控制算法，是通过更新状态动作价值函数来得到最优策略的方法。更新方法 Q(S,A)=Q(S,A)+α(R+γQ(S′,A′)−Q(S,A)) // 回顾一下蒙特卡罗的更新方式 Q(S,A 阅读全文

posted @ 2019-02-20 18:00 努力的孔子阅读(1199) 评论(0) 推荐(2) 编辑

2019年2月20日

导航