摘要: 详解策略梯度算法 引言 根据智能体学习的不同,可将其分为Value-based方法、Policy-based方法以及Actor-Critic方法。之前我们介绍的Q-learning、Saras和DQN都是基于价值去学习,虽然这种强化学习方法在很多领域都获得较多的应用,但是它的局限性也是比较明显。首先 阅读全文
posted @ 2022-01-20 16:22 行者AI 阅读(851) 评论(0) 推荐(0) 编辑