摘要: Deep Deterministic Policy Gradient (DDPG) 是“Deterministic”(确定性)的,因为它使用了一个确定性策略网络,而不是像传统的强化学习算法(例如,基于策略梯度的算法)那样使用随机策略网络。 具体来说,DDPG 使用的是一个确定性策略函数,通常表示为 阅读全文
posted @ 2024-12-02 15:11 泪水下的笑靥 阅读(44) 评论(0) 推荐(0) 编辑