凯鲁嘎吉
用书写铭记日常,最迷人的不在远方

重要性采样(Importance Sampling)——TRPO与PPO的补充

作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/

    上两篇博客已经介绍了信赖域策略优化(Trust Region Policy Optimization, TRPO)近端策略优化算法(Proximal Policy Optimization Algorithms, PPO),他们用到一个重要的技巧就是:重要性采样。但是都需要限制新旧策略使两者差异不能太大,TRPO通过添加新旧策略的KL约束项,而PPO是限制两者比率的变化范围,这究竟是为什么呢?不加这个约束会怎样?下面通过对重要性采样进行分析,来解答这个问题。更多强化学习内容,请看:随笔分类 - Reinforcement Learning

1. 采样法(Sampling Method)/蒙特卡罗方法(Monte Carlo Method)

2. 重要性采样(Importance Sampling)

3. 重新思考TRPO与PPO

4. 参考文献

[1] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程. 高等教育出版社, 2011.
[2] 邱锡鹏,神经网络与深度学习,机械工业出版社,https://nndl.github.io/, 2020.
[3] 李宏毅, 强化学习课程, https://www.bilibili.com/video/BV1UE411G78S?spm_id_from=333.999.0.0, 2020.

posted on 2021-10-13 11:32  凯鲁嘎吉  阅读(1881)  评论(0编辑  收藏  举报