摘要: Sarsa Lambda 此处引出了单步更新和回合更新的概念。 单步更新,每次只学习上一步的信息,即更新的Q只和前一步的Q和下一步的Q有关,与更早的行动无关 而回合更新则是学习一定数量的行动信息,不仅与前一步有关。lambda则是描述步数的参数。0代表默认的sarsa 即只学习前一步。 lambda 阅读全文
posted @ 2020-03-10 02:21 Aitashi 阅读(178) 评论(1) 推荐(0) 编辑