强化学习中的重要性采样

强化学习中涉及的采样方法包括重要性采样的相关内容和一些自己的思考

在之前内容的整理中涉及了一些重要性采样的内容，在介绍蒙特卡罗离线策略时有所提及。其中详细介绍了到底什么是重要性采样。

这篇博文主要想更加深刻得思考为什么用的是重要性采样方法？

强化学习中为什么要用重要性采样？

参考链接中一句话说的很好：重要性采样出现的原因是因为原始分布难以直接采样，故需要借助一个简单、可采样的分布来计算期望。但强化学习中使用重要性采样不是因为原始分布难以采样，而是不想通过这个分布进行采样。

只要能够理解这句话，就可以分析清楚为什么有时候用重要性采样，有时候不用了？

在off policy策略中，我们希望估计目标策略下的期望回报（价值），但只有行动策略中的回报 $G_t$ 。这些从行动策略中得到的回报的期望 $E[G_t|S_t=s]=v_b(s)$ 是不准确的，所以不能用它们的平均来得到 $v_{\pi}$ 。

重要性采样的主要用处在于：用在两种策略下观察到的动作的概率的比值对回报进行加权，从而把行动策略下的期望值转化为目标策略下的期望值。

具体解释

结合下忘记哪篇科普文里举的理解在线策略和离线策略的例子：皇帝想对民情有所了解，一种是微服私访、一种是派钦差大臣之类的。自己访问自己得到就是在线，别人访问用了经验就是离线。
皇帝选择做的事情会获得一定情报（暂且定为收益），臣子做的事情也会获得一定收益。不管怎么样这两种得到的结果肯定不同，得到的收益也不同。大臣做完的事情就需要转化到皇帝那里然后进行进一步分析。

重要性采样就是在改权重算均值。

这种情况和有策略 $\pi$ 的分布，想求策略 $b$ 的均值有异曲同工之妙，基本上就是一模一样。这也就是那句话，有简单的想算复杂的和想算复杂的只有简单的解决方法其实一样。