2022 年 11月 19 日随笔档案 - 凯鲁嘎吉

2022年11月19日

Safe RL——Constrained Policy Optimization (CPO)

摘要： Safe RL——Constrained Policy Optimization (CPO) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇文章详细讲解Constrained Policy Optimization (CPO)的公式推导，文献来自阅读全文

posted @ 2022-11-19 10:44 凯鲁嘎吉阅读(1485) 评论(0) 推荐(0) 编辑