Learning and Planning in Complex Action Spaces
发表时间:2021
文章要点:文章想说,在动作空间很大或者连续的时候,想要枚举所有动作来做MCTS是不现实的。作者提出了sample-based policy iteration framework,通过采用的方式来做MCTS(Sampled MuZero)。大概思路就是说,在MCTS里面扩展动作的时候,并不枚举所有动作,而是取一个动作子集来作为备选集合,搜索就限制在这个集合里。其实思路就是这样简单,后面作者就说了很多理论的东西,大概就是想说虽然我是采样的方式来planning的,但是我这个方式是有收敛保证的,只要随着采样动作数量K趋近无穷,那么这个sample-based policy improvement operator就依分布收敛到true policy improvement operator。这个其实有点废话了,趋近无穷不就是全扩展的MCTS了。不过回过头来说这个问题,如果采样动作K远小于总的动作N,会不会学到好的策略呢?作者的结果是说完全可以,那这个怎么理解呢?这里有个隐晦的点我感觉是这样的,虽然每次在每个节点上都只采样了K个动作来做MCTS,但是不同的节点,以及每次新建一个search tree的时候,每次采样的K个动作都是不一样的。所以随着policy network和value network的更新,再加上随机探索的噪声,其实每个动作都有机会被采到,只是不是出现在同一次MCTS中的同一个节点罢了。感觉这才是这篇文章work的关键,既省了算力,同时还work。同时还有一个关键点在于,最优策略应该是确定性策略,所以最终一个节点只要有一个动作就够了,这也保证了采样K<<N个动作从原理上来说肯定是足够的。然后具体每次如何选择动作子集呢,文章简单提了一下可以均匀分布采样,也可以用policy network来采样。
总结:这篇文章还挺有意思的,至少说明了我们的树搜索其实不用完全扩展所有动作,在每次建树的时候,只需要扩展一部分来做搜索就可以了。然后这个训练的过程一直持续下去,也会探索到所有动作的。
疑问:文章扯了一堆理论的东西Operator view of Policy Improvement,其实没看明白在干啥。