posts - 292,comments - 409,views - 138万

11 2022 档案

Safe RL——Constrained Policy Optimization (CPO)

摘要：Safe RL——Constrained Policy Optimization (CPO) 作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 这篇文章详细讲解Constrained Policy Optimization (CPO)的公式推导，文献来自阅读全文

posted @ 2022-11-19 10:44 凯鲁嘎吉阅读(1626) 评论(0) 推荐(0) 编辑

—.—宅出新高度—.—

联系我：2441040217@qq.com

Weibo：weibo.com/kailugaji

昵称：凯鲁嘎吉
园龄： 8年5个月
粉丝： 477
关注： 14

+加关注

随笔分类 (142)

随笔档案 (292)

文章档案 (2)

我在其他平台

阅读排行榜

评论排行榜

最新评论

1. Re:Safe RL——Constrained Variational Policy Optimization for Safe Reinforcement Learning (CVPO)
为何结果看起来cvpo的效果一般
--weiweizhao
2. Re:交替方向乘子法（Alternating Direction Method of Multipliers）
@凯鲁嘎吉好嘞谢谢...
--ggrhhh
3. Re:交替方向乘子法（Alternating Direction Method of Multipliers）
@ggrhhh 能改变...
--凯鲁嘎吉
4. Re:交替方向乘子法（Alternating Direction Method of Multipliers）
涨知识了，想问问博主，迭代更新中x,z的更新顺序能改变吗，比如依次更新z、x、y
--ggrhhh
5. Re:深度聚类算法研究综述(A Survey of Deep Clustering Algorithms)
最新的一篇深度聚类综述：四川大学彭玺团队 - 2024.6《A Survey on Deep Clustering: From the Prior Perspective》...
--凯鲁嘎吉

搜索

常用链接

我的标签

积分与排名