2021 年 12月 7 日随笔档案 - 埠默笙声声声脉

2021年12月7日

摘要：在强化学习实战 | 自定义Gym环境之井子棋中，我们构建了一个井字棋环境，并进行了测试。接下来我们可以使用各种强化学习方法训练agent出棋，其中比较简单的是Q学习，Q即Q(S, a)，是状态动作价值，表示在状态s下执行动作a的未来收益的总和。Q学习的算法如下：可以看到，当agent在状态S，阅读全文

posted @ 2021-12-07 19:52 埠默笙声声声脉阅读(2100) 评论(3) 推荐(1) 编辑

公告