2024 年 12月 2 日随笔档案 - 泪水下的笑靥

2024年12月2日

为什么Deep Deterministic Policy Gradient（DDPG）是Deterministic的?到底哪里体现了？和PPO什么区别？

摘要： Deep Deterministic Policy Gradient (DDPG) 是“Deterministic”（确定性）的，因为它使用了一个确定性策略网络，而不是像传统的强化学习算法（例如，基于策略梯度的算法）那样使用随机策略网络。具体来说，DDPG 使用的是一个确定性策略函数，通常表示为阅读全文

posted @ 2024-12-02 15:11 泪水下的笑靥阅读(44) 评论(0) 推荐(0) 编辑

myleaf

公告