会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
myleaf
博客园
首页
新随笔
联系
订阅
管理
2024年12月2日
为什么Deep Deterministic Policy Gradient(DDPG)是Deterministic的?到底哪里体现了?和PPO什么区别?
摘要: Deep Deterministic Policy Gradient (DDPG) 是“Deterministic”(确定性)的,因为它使用了一个确定性策略网络,而不是像传统的强化学习算法(例如,基于策略梯度的算法)那样使用随机策略网络。 具体来说,DDPG 使用的是一个确定性策略函数,通常表示为
阅读全文
posted @ 2024-12-02 15:11 泪水下的笑靥
阅读(44)
评论(0)
推荐(0)
编辑
公告