Application of MCTS in Atari Black-box Planning
发表时间:2018(ICAPS 2018 workshop Heuristics and Search for Domain-independent Planning (HSDIP))
文章要点:这篇文章主要就是做实验看了看几种tree search方法在Atari上的效果如何,里面没有RL的东西。
主要比了P-IW(1),UCT,UNIFORM,SEQHALVING,ϵ-GREEDY。P-IW(1)是广度优先搜索算法,这个算法有一个prune的过程,通过判断状态是否novel来修正搜索。Novel的判断标准就是是否有之前没见过的状态有更高的reward
UCT就是经典的MCTS,不用解释了。UNIFORM就是均匀采样动作。SEQHALVING的simulation是均匀采样,但是selection是当做一个multi-armed bandit来选,我感觉就是说树里面用UCT,外面用随机。前面UNIFORM是全都随机。\(\epsilon\)-GREEDY就是以\(\epsilon\)的概率选最好的节点,1-\(\epsilon\)随机选。最后的结果看起来UNIFORM都比UCT好,有点怪怪的。
总结:一篇纯讲planning的文章,主要还是做实验对比效果。
疑问:有的方法可能理解有偏差,比如UNIFORM和SEQHALVING。