posts - 292,comments - 409,views - 138万

重要性采样(Importance Sampling)——TRPO与PPO的补充

阅读目录(Content)

重要性采样(Importance Sampling)——TRPO与PPO的补充

1. 采样法(Sampling Method)/蒙特卡罗方法(Monte Carlo Method)
2. 重要性采样(Importance Sampling)
3. 重新思考TRPO与PPO
4. 参考文献

回到顶部(go to top)

重要性采样(Importance Sampling)——TRPO与PPO的补充

作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/

上两篇博客已经介绍了信赖域策略优化(Trust Region Policy Optimization, TRPO)与近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)，他们用到一个重要的技巧就是：重要性采样。但是都需要限制新旧策略使两者差异不能太大，TRPO通过添加新旧策略的KL约束项，而PPO是限制两者比率的变化范围，这究竟是为什么呢？不加这个约束会怎样？下面通过对重要性采样进行分析，来解答这个问题。更多强化学习内容，请看：随笔分类 - Reinforcement Learning。

1. 采样法(Sampling Method)/蒙特卡罗方法(Monte Carlo Method)

2. 重要性采样(Importance Sampling)

3. 重新思考TRPO与PPO

4. 参考文献

[1] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程. 高等教育出版社, 2011.
[2] 邱锡鹏，神经网络与深度学习，机械工业出版社，https://nndl.github.io/, 2020.
[3] 李宏毅, 强化学习课程, https://www.bilibili.com/video/BV1UE411G78S?spm_id_from=333.999.0.0, 2020.

posted on 2021-10-13 11:32 凯鲁嘎吉阅读(2026) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

—.—宅出新高度—.—

联系我：2441040217@qq.com

Weibo：weibo.com/kailugaji

昵称：凯鲁嘎吉
园龄： 8年5个月
粉丝： 476
关注： 14

随笔分类 (142)

随笔档案 (292)

文章档案 (2)

我在其他平台

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:Safe RL——Constrained Variational Policy Optimization for Safe Reinforcement Learning (CVPO)
为何结果看起来cvpo的效果一般
--weiweizhao
2. Re:交替方向乘子法（Alternating Direction Method of Multipliers）
@凯鲁嘎吉好嘞谢谢...
--ggrhhh
3. Re:交替方向乘子法（Alternating Direction Method of Multipliers）
@ggrhhh 能改变...
--凯鲁嘎吉
4. Re:交替方向乘子法（Alternating Direction Method of Multipliers）
涨知识了，想问问博主，迭代更新中x,z的更新顺序能改变吗，比如依次更新z、x、y
--ggrhhh
5. Re:深度聚类算法研究综述(A Survey of Deep Clustering Algorithms)
最新的一篇深度聚类综述：四川大学彭玺团队 - 2024.6《A Survey on Deep Clustering: From the Prior Perspective》...
--凯鲁嘎吉