Using Monte Carlo Tree Search as a Demonstrator within Asynchronous Deep RL
发表时间:2018(AAAI-19 Workshop on Reinforcement Learning in Games)
文章要点:结合了A3C和MCTS,再加上一个预测terminal的辅助任务的loss,在Pommerman上取得了不错的效果。主要的方法就是在A3C的worker里面,除了RL的worker外,还有一个MCTS的worker来和环境交互,然后得到的样本和RL worker的样本一起用来训练A3C。其中MCTS这部分的样本用监督学习训练,RL那部分还是policy gradient的方式。
总结:这个游戏很容易出现放炸弹自杀的问题,所以用MCTS来planning一下,会避免很多自杀的情况,所以效果就比单纯RL要好,make sense。然后terminal prediction的辅助任务也被用来切换是用RL选择动作还是用MCTS选择动作,总的来说也帮助整个训练避免了很多没用的自杀的样本,提高了效率。但是整个训练都是对着rule训的,MCTS的对手也是rule,相当于就没有博弈在里面了。
疑问:Figure 4里,除了performance曲线还有一排排的横线,不知道是啥意思(horizontal lines depict individual episodic rewards)。