Monte Carlo Off Policy Evaluation

前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估介绍的是On-Policy的策略评估。简而言之，On-Policy就是说做评估的时候就是在目标策略本身上做的评估，而Off-Policy指的是在别的策略上对目标策略做评估。

MC Off-Policy Evaluation

在某些领域(例如图示)尝试采取动作观察结果代价很大或者风险很高
因此我们希望能够根据以前的关于策略决策的旧数据和已有与之相关的结果来评估一个替代策略可能的价值

Monte Carlo(MC) Off Policy Evaluation

目标：在给定由行为策略 $\pi_2$ 产生的轮次(episodes)下，评估策略 $\pi_1$ 的价值 $V^\pi(s)$
- $s_1,a_1,r_1,s_2,a_2,r_2,....$ 其中的action是由 $\pi_2$ 采样而来
MDP模型M在策略 $\pi$ 下产生的收益为 $G_t=r_t+\gamma r_{t+1} + \gamma^2r_{t+2}+\gamma^3r_{t+3}+....$
价值函数为 $V^\pi(s)=\mathbb{E}_\pi[G_t|s_t = s]$
有不同的策略，记为策略 $\pi_2$ 的数据
如果 $\pi_2$ 是随机的，那么通常可以使用它来评估一个不同的策略的价值(这是通常情况下遵循的一般原则)
再次强调，不需要有模型，也不必要求状态必须是马尔科夫的。

如图，该方法可能面临着已有的行为策略和新的行为策略分布相差巨大的缺点，这点需要注意。

posted @ 2019-10-21 22:08 从流域到海域阅读(124) 评论(0) 收藏举报

刷新页面返回顶部