强化学习之基于表格型方法的规划和学习(六)-- 决策时规划

注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第八节

我们在之前提过,规划用通俗的语言来解释就是分析已有的东西,做出在当前条件下最好的选择。然后根据这一尝试继续去分析找到好的策略和动作去执行。
后台规划是一直在根据自己的探索更新自己的知识库,使用模拟经验来逐步改进策略或价值函数。决策时规划是根据当前出现的局面来调整自己的知识库?【可能不是】,是使用模拟经验为当前状态选择一个动作。

后台规划

以动态规划和Dyna为代表的方法从环境模型(单个样本或概率分布)生成模拟经验,并以此为基础采用规划来逐步改进策略或价值函数。【可以视为就是之前收到分析已有的东西】
在为当前进行动作选择之前,规划过程都会预先针对多个状态的动作选择所需要的表格条目(表格型方法)或数学表达式(近似方法)进行改善。在这种运行方式下,规划并不仅仅聚焦于当前状态,还要预先在后台处理其它的多个状态。
【规划时,基于历史信息得到全局最优。先分析历史后作出决策,侧重于利用全局信息(如值函数)】

决策时规划

遇到每个新状态后才开始并完成规划,计算过程中输出的是单个动作。
这种规划针对的是当前的状态,会评估不同的动作导致的结果。
【下棋时思考到底怎么走才是比较好的,思考的过程就是决策时规划】

参考链接:

8.8 决策时规划 - 张会文的文章 - 知乎 https://zhuanlan.zhihu.com/p/60465725

posted @ 2021-10-11 20:24  芋圆院长  阅读(122)  评论(0编辑  收藏  举报