摘要: 问题定义 bot没一轮产生2个黄金点,黄金点在0 100之间的实数,统计没一轮所有提交,求平均并乘以0.618得到黄金点,离黄金点最近的得人数减一分,最远的得 2分,其他得0分 方法建模 使用强化学习来解决这个问题,这里使用最简单Q_table来纪录学习到的“经验”。 观测先前的比赛过程,黄金点有规 阅读全文
posted @ 2019-09-22 17:34 charley-chai 阅读(144) 评论(1) 推荐(0) 编辑