摘要:
《Human-level control through deep reinforcement learning》 是深度强化学习的开创性论文,对于强化学习算法的性能评价在文章中给出了两种方式,分别是: 1. 平均得分。测试性能时agent进行一定的步数执行,记录agent所获得的所有奖励值并对其求 阅读全文
posted @ 2021-01-24 19:40
Angry_Panda
阅读(8516)
评论(0)
推荐(0)
浙公网安备 33010602011771号