Bandit based Monte-Carlo Planning
发表时间:2006(ECML 2006)
文章要点:这篇文章提出了UCT算法,把bandit的UCB1算法用到Monte-Carlo planning里面。
首先假设我们有一个generative model,就是我给一个状态和动作,就告诉我下一个状态和reward。有了这个model之后,通常的做法就是搞个lookahead search。最常见的算法就是Monte-Carlo search,通过随机采样或者某种heuristic biasing的方法来选动作往前看n步,再回溯看哪个动作的value最高。这个方法的缺点就是sample是随机的,相互之间没有联系。作者的想法就是,如果在搜索过程中,如果在前期的sampling过程中能识别出一些比较好的动作的子集,那么就会提升后期的性能(if one is able to identify a large subset of the suboptimal actions early in the sampling procedure then huge performance improvements can be expected.)。同时,这个子集不可能一上来就选对了,所以还需要扩张或者删减,所以还需要平衡exploration-exploitation。然后作者就提出了经典的UCT算法来选择动作。首先在bandit问题里,UCB1是
同时,由Hoeffding's inequality可得
这个不等式就说明了UCB1在bandit问题上的收敛性。然后作者就说,planning其实就相当于是non-stationary bandit,只需要让
然后取一个合适的\(C_p>0\)就可以满足那个概率不等式了。这就成了经典的UCT算法了。
总结:算是MCTS的起源文章了,很经典也很有效,像AlphaZero这类算法都是基于UCT改进的,影响力是真的大。
疑问:里面具体的证明还需要看看UCB的文章。