EXPLORING MODEL-BASED PLANNING WITH POLICY NETWORKS
发表时间:2020(ICLR 2020)
文章要点:这篇文章说现在的planning方法都是在动作空间里randomly generated,这样很不高效(其实瞎扯了,很多不是随机的方法啊)。作者提出在model based RL里用policy网络来做online planning选择动作,提出了model-based policy planning (POPLIN)算法。作者提出了两个变种,model-based policy planning in action space (POPLIN-A)和model-based policy planning parameter space (POPLIN-P)。
具体的,POPLIN-A就是用一个policy network来生成动作序列,然后用CEM来fine-tune确定最终的动作。这个CEM就是假定了一个高斯分布,然后在动作序列上添加这个高斯噪声来看效果是提升还是减少,然后再优化这个高斯分布使得最终的return最大。
这里作者又细分了两个方法,POPLIN-A-Init和POPLIN-A-Replan。POPLIN-A-Init就是说policy network只用来生成最初的动作序列,剩下的fine-tune交给CEM去做。
POPLIN-A-Replan就是说每次都会用policy network重新plan一下。
另一个算法POPLIN-P,这个和POPLIN-A的区别就是CEM的噪声是加在网络的参数上的,而不是动作空间上的
总结:之前还感觉没有任何新东西,算法也是别人早就提过,就是做试验了,可能图画的比较好看吧。不过做实验应该也挺辛苦的。
疑问:确实不太清楚创新点在哪。