Online and Offline Reinforcement Learning by Planning with a Learned Model
发表时间:2021
文章要点:文章接着muzero做的,当时muzero里面提出了一个MuZero Reanalyze(Reanalyse)的方式,这篇文章提出的MuZero Unplugged算法其实就是把MuZero Reanalyse用到offline RL里面。作者想说的就是这个方法不仅可以用在online RL上,在offline RL上同样表现很好,相当于一个算法对着这两种设定都适用(Reanalyse fraction of 0% refers to training by only interacting with the environment, no Reanalyse of stored data, whereas a fraction of 100% refers to the fully offline case with no environment interaction at all)。MuZero Unplugged的主要想说的是,由于muzero是off-policy算法,那么replay buffer里的trajectory肯定是很多不同的policy产生的,由于policy一直在被更新,那么那些存储较早的trajectory的policy和n-step return就不准了,所以就要用最新的网络参数去重新做树搜索更新policy以及target value来估n-step return(所以叫Reanalyze)。这个原理在muzero的文章中也有说,如下
然后这篇文章就是把这个方式和offline RL的算法作对比,比如BC,DQN,IQN,BCQ,REM,CRR等。
总结:感觉muzero确实还挺通用,而且因为它还要学model,相当于给训练多加了很多正则项,再加上还有MCTS的planning,确实效果会robust很多。但是也能想象,这么多网络一起训练,算力要求不会低的。而且这个方式确实就和DQN一样,对于offline RL来说就是把replay buffer拿来继续train,所以通用性是可以理解的。另一个感悟是,原来deepmind自己接着自己的算法做,也不是直接拿来用,还是要自己复现一遍啊,666。
疑问:这篇文章主要其实在讲实验,各个部分具体是咋实现的其实没细说,从给的算法伪代码也能看出来,写的非常笼统,需要靠猜。