Using Monte Carlo Tree Search as a Demonstrator within Asynchronous Deep RL

发表时间：2018（AAAI-19 Workshop on Reinforcement Learning in Games）
文章要点：结合了A3C和MCTS，再加上一个预测terminal的辅助任务的loss，在Pommerman上取得了不错的效果。主要的方法就是在A3C的worker里面，除了RL的worker外，还有一个MCTS的worker来和环境交互，然后得到的样本和RL worker的样本一起用来训练A3C。其中MCTS这部分的样本用监督学习训练，RL那部分还是policy gradient的方式。
总结：这个游戏很容易出现放炸弹自杀的问题，所以用MCTS来planning一下，会避免很多自杀的情况，所以效果就比单纯RL要好，make sense。然后terminal prediction的辅助任务也被用来切换是用RL选择动作还是用MCTS选择动作，总的来说也帮助整个训练避免了很多没用的自杀的样本，提高了效率。但是整个训练都是对着rule训的，MCTS的对手也是rule，相当于就没有博弈在里面了。
疑问：Figure 4里，除了performance曲线还有一排排的横线，不知道是啥意思(horizontal lines depict individual episodic rewards)。

posted @ 2021-07-14 11:43 initial_h 阅读(99) 评论(0) 编辑收藏举报

initial_h

https://github.com/initial-h

Using Monte Carlo Tree Search as a Demonstrator within Asynchronous Deep RL

公告