RL中on-policy和off-policy的本质区别/重要性采样
本随笔的图片都来自UCL强化学习课程lec5 Model-free prediction的ppt (Teaching - David Silver ).
回忆值函数的表达式:
其中是折扣回报。期望下面的是简写,实际上应该写作:
无论MC prediction还是TD prediction,都是在估计,本质上是在做policy evaluation,evaluate的是。从值函数表达式就可以看出,要估计,应该整条轨迹(的动作)都是从上采样的。
如果从行为策略采样,就变成了用策略的数据来evaluate策略,这就需要用importance sampling来修正了。
-
所以对于离策略的MC方法,在轨迹上每次对action的采样,都需要修正:
-
离策略的TD方法,只用修正一步:
-
Q-learning,直接估计的是,遍历action求max不涉及action的采样,天生是离策略,不需要修正:
本文作者:伊犁纯流莱
本文链接:https://www.cnblogs.com/tshaaa/p/18639512
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· DeepSeek R1 简明指南:架构、训练、本地部署及硬件要求
· 2 本地部署DeepSeek模型构建本地知识库+联网搜索详细步骤