2022 年 1月 20 日随笔档案 - 行者AI

2022年1月20日

摘要：详解策略梯度算法引言根据智能体学习的不同，可将其分为Value-based方法、Policy-based方法以及Actor-Critic方法。之前我们介绍的Q-learning、Saras和DQN都是基于价值去学习，虽然这种强化学习方法在很多领域都获得较多的应用，但是它的局限性也是比较明显。首先阅读全文

posted @ 2022-01-20 16:22 行者AI 阅读(851) 评论(0) 推荐(0) 编辑

行者AI

为游戏插上人工智能的翅膀

公告