2021 年 10月 11 日随笔档案 - 芋圆院长

2021年10月11日

强化学习之基于表格型方法的规划和学习（七）-- 启发式搜索、预演算法、蒙特卡罗树搜索

摘要：

注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第九、十、十一节启发式搜索启发式搜索是在搜索过程中加入别的表征量，帮助搜索更加快捷准确，不需要像之前一样全部遍历。在启发式搜索中，对于每个遇到的状态，都建立一阅读全文

posted @ 2021-10-11 21:42 芋圆院长阅读(275) 评论(0) 推荐(0) 编辑

强化学习之基于表格型方法的规划和学习（六）-- 决策时规划

摘要：

注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第八节我们在之前提过，规划用通俗的语言来解释就是分析已有的东西，做出在当前条件下最好的选择。然后根据这一尝试继续去分析找到好的策略和动作去执行。后台规划是一直在阅读全文

posted @ 2021-10-11 20:24 芋圆院长阅读(122) 评论(0) 推荐(0) 编辑

强化学习之基于表格型方法的规划和学习（五）-- 实时动态规划

摘要：注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第七节本节介绍的是轨迹采样的一个特例实时动态规划实时动态规划（real-time dynamic programming, RTDP）是动态规划（Dynami 阅读全文

posted @ 2021-10-11 19:48 芋圆院长阅读(156) 评论(0) 推荐(0) 编辑

强化学习之基于表格型方法的规划和学习（四）-- 轨迹采样(Trajectory Sampling)

摘要：注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第六节第五节主要阐述了两种状态更新过程的优缺点对比，本节主要介绍两种分布式更新过程的算力分配方法：即着重更新哪些状态一种方法是基于动态规划的经典方法：遍历整个状阅读全文

posted @ 2021-10-11 15:08 芋圆院长阅读(533) 评论(0) 推荐(0) 编辑

强化学习之基于表格型方法的规划和学习（三）-- 期望更新与采样更新

摘要：注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第四、五节在这一章的脉络中，首先将有模型和无模型的方法联系起来，平衡了真实经验和模拟经验，给出了使用表格型方法求解的基本模型，对环境进行统一。然后讨论了环境发生变阅读全文

posted @ 2021-10-11 11:25 芋圆院长阅读(113) 评论(0) 推荐(0) 编辑

芋圆院长

公告