强化学习笔记（一） Qlearning & Sarsa

我的理解:

Q learning

Sarsa

在一个回合内：

初始化s

1. choose(s, Q) => action ( $\epsilon-greedy$ 策略)

2. move(action, s, Q) => s_ , R

3. Q_fresh(action, s, Q, s_, R) => new_Q （最大值策略）

4. 更新 s = s_

5. 重复步骤1-5

在一个回合内：

初始化s , 并选择一个动作action choose(s, Q) => action ( $\epsilon-greedy$ 策略)

1. move(action, s, Q) => s_, R

2. choose(s_, Q) => action_ ( $\epsilon-greedy$ 策略)

3. Q_fresh(action, s, Q, action_, s_, R) => new_Q

4. 更新 s=s_, action=action_

5. 重复步骤1-5

帮助理解：

posted @ 2019-07-04 10:47 可爱小小畅阅读(277) 评论(0) 收藏举报

刷新页面返回顶部

需要鼓励