一切根据和符合于客观事实的思想是正确的思想
一切根据于正确思想的做或行动是正确
|

伊犁纯流莱

园龄:3年4个月粉丝:3关注:1

RL中on-policy和off-policy的本质区别/重要性采样

本随笔的图片都来自UCL强化学习课程lec5 Model-free prediction的ppt (Teaching - David Silver ).

回忆值函数的表达式:

vπ(s)=Eπ[GtSt=s]

其中Gt是折扣回报。期望E下面的π是简写,实际上应该写作:

At,St+1,At+1,Skπ

无论MC prediction还是TD prediction,都是在估计Eπ[GtSt=s],本质上是在做policy evaluation,evaluate的是π。从值函数表达式就可以看出,要估计vπ,应该整条轨迹(的动作)都是从π上采样的。

如果从行为策略μ采样,就变成了用策略μ的数据来evaluate策略π,这就需要用importance sampling来修正了。

  • 所以对于离策略的MC方法,在轨迹上每次对action的采样,都需要修正:
    image

  • 离策略的TD方法,只用修正一步:
    image

  • Q-learning,直接估计的是Q,遍历action求max不涉及action的采样,天生是离策略,不需要修正:
    image

本文作者:伊犁纯流莱

本文链接:https://www.cnblogs.com/tshaaa/p/18639512

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   伊犁纯流莱  阅读(59)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· DeepSeek R1 简明指南:架构、训练、本地部署及硬件要求
· 2 本地部署DeepSeek模型构建本地知识库+联网搜索详细步骤
   
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起