Value targets in off-policy AlphaZero: a new greedy backup


发表时间:2021
文章要点:这篇文章给AlphaZero设计了一个新的value targets,AlphaZero with greedy backups (A0GB)。
AlphaZero的树里面有探索,而value又是所有结果的平均,所以并不准确。而选动作也是依概率选的,但真正测试的时候是选的访问次数最多的动作,所以这个方法是off-policy,也会存在不一致。作者比较了文章中提出的方法和几种常见的方法的区别,如下图所示

其中AlphaZero target用的是真实数据的胜负关系,Soft-Z target用的是根节点的估计,A0C target用的是根节点的子节点中最大的那个value backup回去得到的,文章提出的A0GB是用的greedy策略走到叶节点的value再backup回去得到的。
这里就涉及几个维度,一个是真实游戏的backup depth,另一个是树里面的backup depth,最后一个是树里面的backup width,所以作者就画了最上面那幅三个维度的图,以及总结的关系如下表

最后就在几个游戏上测试了一下,说他这个方式效果最好。
总结:感觉这个问题还挺有意思的,可以深入研究下这里面的关系。
疑问:无。

posted @ 2023-04-16 10:23  initial_h  阅读(29)  评论(0编辑  收藏  举报