Application of MCTS in Atari Black-box Planning

发表时间：2018（ICAPS 2018 workshop Heuristics and Search for Domain-independent Planning (HSDIP)）
文章要点：这篇文章主要就是做实验看了看几种tree search方法在Atari上的效果如何，里面没有RL的东西。
主要比了P-IW(1)，UCT，UNIFORM，SEQHALVING，ϵ-GREEDY。P-IW(1)是广度优先搜索算法，这个算法有一个prune的过程，通过判断状态是否novel来修正搜索。Novel的判断标准就是是否有之前没见过的状态有更高的reward

UCT就是经典的MCTS，不用解释了。UNIFORM就是均匀采样动作。SEQHALVING的simulation是均匀采样，但是selection是当做一个multi-armed bandit来选，我感觉就是说树里面用UCT，外面用随机。前面UNIFORM是全都随机。\(\epsilon\)-GREEDY就是以\(\epsilon\)的概率选最好的节点，1-\(\epsilon\)随机选。最后的结果看起来UNIFORM都比UCT好，有点怪怪的。
总结：一篇纯讲planning的文章，主要还是做实验对比效果。
疑问：有的方法可能理解有偏差，比如UNIFORM和SEQHALVING。

posted @ 2022-04-27 23:40 initial_h 阅读(39) 评论(0) 编辑收藏举报

initial_h

https://github.com/initial-h

Application of MCTS in Atari Black-box Planning

公告