会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
埠默笙声的博客
博客园
首页
新随笔
联系
订阅
管理
2021年12月7日
强化学习实战:表格型Q-Learning玩井字棋(一)搭个框架
摘要: 在 强化学习实战 | 自定义Gym环境之井子棋 中,我们构建了一个井字棋环境,并进行了测试。接下来我们可以使用各种强化学习方法训练agent出棋,其中比较简单的是Q学习,Q即Q(S, a),是状态动作价值,表示在状态s下执行动作a的未来收益的总和。Q学习的算法如下: 可以看到,当agent在状态S,
阅读全文
posted @ 2021-12-07 19:52 埠默笙声声声脉
阅读(2006)
评论(3)
推荐(1)
编辑
公告