摘要: 在本文中,我们将在PyTorch中为Chain Reaction[2]游戏从头开始实现DeepMind的AlphaZero[1]。为了使AlphaZero的学习过程更有效,我们还将使用一个相对较新的改进,称为“Playout Cap Randomization”[3],以及来自[4]的一些其他技术。 阅读全文
posted @ 2022-11-08 14:44 deephub 阅读(54) 评论(0) 推荐(0) 编辑