强化学习之基于表格型方法的规划和学习（六）-- 决策时规划

注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第八节

我们在之前提过，规划用通俗的语言来解释就是分析已有的东西，做出在当前条件下最好的选择。然后根据这一尝试继续去分析找到好的策略和动作去执行。
后台规划是一直在根据自己的探索更新自己的知识库，使用模拟经验来逐步改进策略或价值函数。决策时规划是根据当前出现的局面来调整自己的知识库？【可能不是】，是使用模拟经验为当前状态选择一个动作。

后台规划

以动态规划和Dyna为代表的方法从环境模型（单个样本或概率分布）生成模拟经验，并以此为基础采用规划来逐步改进策略或价值函数。【可以视为就是之前收到分析已有的东西】
在为当前进行动作选择之前，规划过程都会预先针对多个状态的动作选择所需要的表格条目（表格型方法）或数学表达式（近似方法）进行改善。在这种运行方式下，规划并不仅仅聚焦于当前状态，还要预先在后台处理其它的多个状态。
【规划时，基于历史信息得到全局最优。先分析历史后作出决策，侧重于利用全局信息（如值函数）】

决策时规划

遇到每个新状态后才开始并完成规划，计算过程中输出的是单个动作。
这种规划针对的是当前的状态，会评估不同的动作导致的结果。
【下棋时思考到底怎么走才是比较好的，思考的过程就是决策时规划】

参考链接：

8.8 决策时规划 - 张会文的文章 - 知乎 https://zhuanlan.zhihu.com/p/60465725

posted @ 2021-10-11 20:24 芋圆院长阅读(159) 评论(0) 收藏举报

刷新页面返回顶部

芋圆院长

强化学习之基于表格型方法的规划和学习（六）-- 决策时规划

注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第八节

后台规划

决策时规划

参考链接：

公告