强化学习之基于表格型方法的规划和学习(五)-- 实时动态规划

注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第七节

本节介绍的是轨迹采样的一个特例

实时动态规划

实时动态规划(real-time dynamic programming, RTDP)是动态规划(Dynamic programming, DP)值迭代算法的同轨策略轨迹采样版本。
RTDP 是异步DP算法的一个例子。异步DP算法不是根据对状态机和的系统性遍历来组织的,可以采用任何顺序和其它状态恰好可用的任何价值来计算某个状态的价值函数更新。在RTDP中,更新顺序是由真实或模拟轨迹中状态被访问的顺序决定的。

对于控制问题,目标是找到最优策略,而不是像预测问题一样评估给定的策略。对于那些永远都不可能到达的状态,我们不需要指定最优动作。
只要找到策略对于相关的状态是最优的即可,对不相关的状态可以指定任意的甚至是未定义的动作。

传统的值迭代方法更新所有的价值,而RTDP则关注与问题状态相关的状态自己。随着学习的进行,这一关注点范围越来越窄。因为RTDP的收敛定理适用于模拟情况,所以我们知道RTDP最终将只关注相关状态,即构成最优路径的状态。

posted @ 2021-10-11 19:48  芋圆院长  阅读(156)  评论(0编辑  收藏  举报