强化学习之基于表格型方法的规划和学习(四)-- 轨迹采样(Trajectory Sampling)

注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第六节

第五节主要阐述了两种状态更新过程的优缺点对比,本节主要介绍两种分布式更新过程的算力分配方法:即着重更新哪些状态
一种方法是基于动态规划的经典方法:遍历整个状态空间,每遍历一次就更新一次。在大规模任务中,这很有可能是无法实现的。在许多任务中,有很多状态并不必要,只有很糟糕的策略才会访问到这些状态。穷举式遍历将计算时间均匀地遍布在状态空间的所有部分,所有的状态都要更新,而不是集中在需要的地方【参考DP的格子问题均匀扫描。蒙特卡罗算法:当所有状态都可以作为初始状态时,随机选择初始状态,但所有状态都必须作为开始状态出现几次】。

另一种方法是根据某些分布从状态或状态-动作二元组中采样。可以像Dyna-Q那样均匀采样【从之前经历过的二元组中随机选择来模拟转移】、前向后向聚焦。

轨迹采样

根据同轨策略下的分布(遵循同轨策略所产生的状态和动作序列的概率分布)来分配用于更新的算力,也就是根据在当前遵循的策略下观察到的分布来分配算力
优点是容易生成,只需要按部就班与模型进行交互并遵循当前的策略即可。【通过模拟仿真得到独立且明确的完整智能体运行轨迹,并对沿途遇到的状态或动作状态二元组执行回溯更新】
轨迹采样:借助模拟生成经验来进行回溯更新。

聚焦于同轨策略的好处在于空间中大量不重要的区域被忽略,同时带来的坏处是空间中某些相同的就区域一次又一次更新。

在短期内,根据同轨策略分布进行采样有助于聚焦接近初始状态的后继状态。如果有很多状态且分支因子很小,这种效应会很大且持久。
长期来看,通常发生的状态已经有了正确的估计,采样到它们没有那么大的价值,只有采样到别的状态才有可能使得更新过程有价值。

总结

本节主要解释将算力运用在哪些状态的更新上。一种是穷举式,每个状态都要进行遍历并更新。一种是经验式,之前经历过什么就从其中的状态开始进行更新。在选择之前的状态时,一种是像Dyna Q一样随机选择一个开始计算,还有一种是得到这些状态的分布,找到最常出现的那些状态进行更新。

posted @ 2021-10-11 15:08  芋圆院长  阅读(533)  评论(0编辑  收藏  举报