强化学习笔记(一) Qlearning & Sarsa

image

image

 

我的理解:

Q learning

Sarsa

在一个回合内:

初始化s

1. choose(s, Q) => action  (\epsilon-greedy策略)

2. move(action, s, Q) => s_ , R 

3. Q_fresh(action, s, Q, s_, R) => new_Q (最大值策略)

4. 更新 s = s_

5. 重复步骤1-5

在一个回合内:

初始化s , 并选择一个动作action   choose(s, Q) => action       (\epsilon-greedy策略)

1. move(action, s, Q) => s_, R 

2. choose(s_, Q) => action_    (\epsilon-greedy策略)

3. Q_fresh(action, s, Q, action_, s_, R) => new_Q

4. 更新 s=s_,  action=action_

5. 重复步骤1-5

 

帮助理解:

c5401065a62913a3113a261c15ea4cd

posted @ 2019-07-04 10:47  可爱小小畅  阅读(254)  评论(0编辑  收藏  举报