强化学习之基于表格型方法的规划和学习（四）-- 轨迹采样(Trajectory Sampling)

注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第六节

第五节主要阐述了两种状态更新过程的优缺点对比，本节主要介绍两种分布式更新过程的算力分配方法：即着重更新哪些状态
一种方法是基于动态规划的经典方法：遍历整个状态空间，每遍历一次就更新一次。在大规模任务中，这很有可能是无法实现的。在许多任务中，有很多状态并不必要，只有很糟糕的策略才会访问到这些状态。穷举式遍历将计算时间均匀地遍布在状态空间的所有部分，所有的状态都要更新，而不是集中在需要的地方【参考DP的格子问题均匀扫描。蒙特卡罗算法：当所有状态都可以作为初始状态时，随机选择初始状态，但所有状态都必须作为开始状态出现几次】。

另一种方法是根据某些分布从状态或状态-动作二元组中采样。可以像Dyna-Q那样均匀采样【从之前经历过的二元组中随机选择来模拟转移】、前向后向聚焦。

轨迹采样

根据同轨策略下的分布（遵循同轨策略所产生的状态和动作序列的概率分布）来分配用于更新的算力，也就是根据在当前遵循的策略下观察到的分布来分配算力。
优点是容易生成，只需要按部就班与模型进行交互并遵循当前的策略即可。【通过模拟仿真得到独立且明确的完整智能体运行轨迹，并对沿途遇到的状态或动作状态二元组执行回溯更新】
轨迹采样：借助模拟生成经验来进行回溯更新。

聚焦于同轨策略的好处在于空间中大量不重要的区域被忽略，同时带来的坏处是空间中某些相同的就区域一次又一次更新。

在短期内，根据同轨策略分布进行采样有助于聚焦接近初始状态的后继状态。如果有很多状态且分支因子很小，这种效应会很大且持久。
长期来看，通常发生的状态已经有了正确的估计，采样到它们没有那么大的价值，只有采样到别的状态才有可能使得更新过程有价值。

总结

本节主要解释将算力运用在哪些状态的更新上。一种是穷举式，每个状态都要进行遍历并更新。一种是经验式，之前经历过什么就从其中的状态开始进行更新。在选择之前的状态时，一种是像Dyna Q一样随机选择一个开始计算，还有一种是得到这些状态的分布，找到最常出现的那些状态进行更新。

posted @ 2021-10-11 15:08 芋圆院长阅读(533) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

芋圆院长

强化学习之基于表格型方法的规划和学习（四）-- 轨迹采样(Trajectory Sampling)

注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第六节

轨迹采样

总结

公告