2021 年 12月 10 日随笔档案 - 埠默笙声声声脉

2021年12月10日

摘要：在强化学习实战 | 表格型Q-Learning玩井字棋（二）开始训练！中，我们让agent“简陋地”训练了起来，经过了耗费时间的10万局游戏过后，却效果平平，尤其是初始状态的数值表现和预期相差不小。我想主要原因就是没有采用等价局面同步更新的方法，导致数据利用率较低。等价局面有7个，分别是：旋转90 阅读全文

posted @ 2021-12-10 18:36 埠默笙声声声脉阅读(1068) 评论(0) 推荐(0) 编辑

公告