凯鲁嘎吉
用书写铭记日常,最迷人的不在远方
摘要: Safe RL——Constrained Policy Optimization (CPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇文章详细讲解Constrained Policy Optimization (CPO)的公式推导,文献来自 阅读全文
posted @ 2022-11-19 10:44 凯鲁嘎吉 阅读(1485) 评论(0) 推荐(0) 编辑