会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
埠默笙声的博客
博客园
首页
新随笔
联系
订阅
管理
2021年12月10日
强化学习实战:表格型Q-Learning玩井子棋(三)优化,优化
摘要: 在 强化学习实战 | 表格型Q-Learning玩井字棋(二)开始训练!中,我们让agent“简陋地”训练了起来,经过了耗费时间的10万局游戏过后,却效果平平,尤其是初始状态的数值表现和预期相差不小。我想主要原因就是没有采用等价局面同步更新的方法,导致数据利用率较低。等价局面有7个,分别是:旋转90
阅读全文
posted @ 2021-12-10 18:36 埠默笙声声声脉
阅读(1068)
评论(0)
推荐(0)
编辑
公告