Imagination-Augmented Agents for Deep Reinforcement Learning


发表时间:2017(NIPS 2017)
文章要点:文章提出了一个叫Imagination-Augmented Agents (I2As)的算法,结合了model free和model based,主要的点不是planning,而是把在model里planning的轨迹encode到策略里面,让policy自己去利用这个轨迹。相当于从模拟的轨迹里面去提取有用的信息,这个方式不需要担心model是imperfect的,因为不会真的根据planning去选动作,或者学习policy,只是提供了额外的输入而已(We use these environment models to simulate imagined trajectories, which are interpreted by a neural network and provided as additional context to a policy network.)。
具体做法就是先收集数据训练model,model的输入是observation和action,输出下一个observation和reward。然后根据rollout policy去model里得到n条轨迹。这个rollout policy就是对着真正的policy用cross entropy loss学的一个更简单的policy,专门用来做rollout用的。作者的解释是这样得到的轨迹和真实的policy在environment里面得到的轨迹更相似。而这n条轨迹就是n个动作对应的轨迹,相当于轨迹的第一个动作就是动作空间里的每个动作先选一遍,然后后面的动作就用rollout policy去选。有了这些轨迹之后,再用一个encoder把这些轨迹encode一下,变成n个embedding,最后用一个aggregator模块把这些embedding直接拼起来,和model free得到的轨迹一起输入到policy和value网络里面。网络结构定义好之后,RL的训练就直接A3C了。然后model是pretrain得到的。然后整个算法就结束了。
总结:一篇比较早的的model based RL的文章,需要提前预训练model,虽然作者的意思是不预训练也ok。然后文章主要强调的不是planning,而是用planning的方式来提取信息,然后给policy提供额外信息,算是一个不一样的方式了。
疑问:作者的实验表明model就算是imperfect的,也不会影响效果,甚至比更准的模型效果还好,这是真的奇怪了。
这种隐式的planning的利用方式,到底原理成不成熟感觉不好说,也只能实验效果说话了。

posted @ 2022-02-13 11:36  initial_h  阅读(104)  评论(0编辑  收藏  举报