Reinforcement Learning 笔记（4）

Sarsa Lambda

此处引出了单步更新和回合更新的概念。

单步更新，每次只学习上一步的信息，即更新的Q只和前一步的Q和下一步的Q有关，与更早的行动无关

而回合更新则是学习一定数量的行动信息，不仅与前一步有关。lambda则是描述步数的参数。0代表默认的sarsa

即只学习前一步。

lambda=1则是回合更新每一步都有相同权重

而一般来说，lambda是一个0-1的数，即前后的行动对学习的影响不同，越靠近学习的位置的行动，则权值较高，较远的（较早的）行动则权值较低。

在实际的实现中，采用了名为eligibility traces的方式。

它的过程是这样的：

每当走到某个state，在某个表中（e_table）对该state对应的权值进行增加，而每走完一步，对整个e_table中的所有权重进行衰减（减小），以此来实现sarsa-lambda的效果。q_table的更新则是通过整个e_table来计算

posted @ 2020-03-10 02:21 Aitashi 阅读(185) 评论(1) 编辑收藏举报

刷新页面返回顶部

Aitashi