exploration by random network distillation
总结:
1.采用随机生成的固定网络作为目标网络,另一网络不断最小化与其的误差,从而达到评估观察的新颖性。
2.介绍了一种灵活地结合内在和外在奖励的方法。
abstract
我们为深度强化学习方法引入了一个探索方法,该方法易于实现,并且为执行的计算增加了最小的开销。奖励是神经网络预测由固定随机初始化神经网络给出的观察特征的误差。我们还介绍了一种灵活地结合内在和外在奖励的方法。
1.Introduction
但是当奖励稀疏且难以找到时往往会失败。实际上,为想要RL代理解决的每个任务设计密集奖励函数通常是不切实际的。在这些情况下,有必要以有针对性的方式探索环境.
RL的最新发展似乎表明解决了极具挑战性的任务需要处理从并行运行多个环境副本获得的大量样本。鉴于此,期望具有在大量经验下可以很好地扩展的探索方法。然而,许多最近引入的基于计数,伪计数,信息增益或预测增益的探索方法难以扩展到大量并行环境。
本文介绍了一种特别易于实现的探索奖励,适用于高维观测,可与任何策略优化算法一起使用,并且计算效率高,因为它只需要批量生成神经网络的单个正向传递经验。我们的探索奖金是基于以下观察:神经网络往往在类似于训练他们的示例上具有显着更低的预测误差。这促使了使用代理人过去经验训练的网络的预测误差来量化新体验的新颖性。
最大化这种预测误差的代理往往会被吸引到过渡,如Noise TV.我们的解决方案,我们预测当前观察的固定随机初始化神经网络的输出。
内在回报+外在回报的PPO在第一关中能找到24个房间中的22个。有时甚至能通关。
2.Method
通常有两种方法,一种是基于计数,另一种是基于它为相关的代理的转变的问题的预测误差。
2.2Random network distillation
本论文采用了一种随机生成预测问题的不同方法(预测观察的新颖性)。这涉及两个神经网络:一个随机初始并固定的目标网络f。另一个是预测网络\(\hat{f}_{\theta}\)。其中预测网络通过最小\(MSE|\hat{f}_{\theta}(x;\theta)-f(x)|^2\)进行优化(目标网络是固定,不用更新的)。对于与预测器已经训练过的状态不同的新状态,预计预测误差会更高。
2.2.1 Sources of Prediction Errors
1.训练数据量:如果预测网络只观测过很少数据,那么预测误差就会很高
2.随机性:预测误差很高,因为目标函数是随机的(任意不确定)。随机转移是前向动态预测的这种误差的来源。(Noise TV)
3.模型的不适用:必要的信息丢失了,或者模型过于简单无法适应目标函数的复杂度导致预测误差很高
4.学习动态。预测误差很高,因为优化过程无法在模型类中找到最接近目标函数的预测器。
RND能够避免2,3。因为目标网络可以被选择为确定性的并且在预测器网络的模型类内
2.3 Combining Intrinsic and Extrinsic Returns
epoch结束得分清零的外部奖励以及得分不清零的内部奖励结合。我们的解决方案是观察到回报是线性的奖励等可以分别作为外在和内在收益的和 \(R = R_E + R_I\) 来分解。因此,我们可以使用它们各自的返回值分别拟合两个值头 \(V_E\) 和 \(V_I\) ,并将它们组合起来给出值函数 \(V = V_E + V_I\) 。同样的想法也可以用于将奖励流与不同的折扣因子组合。
2.4 Reward and Observation Normalization
使用预测误差作为探索奖励的一个问题是奖励的规模在不同环境之间和不同时间点之间可能变化很大,使得难以选择在所有设置中工作的超参数。为了使奖励保持在一致的范围内,我们通过将内在回报除以内在回报的标准差的运行估计来对其进行归一化。
同样观察的归一化也很重要。在使用随机神经网络作为目标时至关重要,因为参数被冻结,因此无法适应不同数据集的规模。缺乏归一化可能导致嵌入的方差极低并且几乎没有关于输入的信息
Discussion
本文介绍了一种基于随机网络蒸馏的探测方法,并通过实验证明该方法能够对几种具有非常稀疏奖励的Atari游戏进行定向探索。这些实验表明,使用相对简单的通用方法可以在硬探索游戏方面取得进展,特别是在大规模应用时.
我们发现RND探索奖励足以应对局部探索,即探索短期决策的后果,例如是否与特定对象互动或避免它。然而,涉及长期视野的协调决策的整体探索超出了我们的方法的范围。
要解决Montezuma复仇的第一级,代理人必须进入一扇锁在两扇门后面的房间。整个楼层共有四个钥匙和六扇门。四个钥匙中的任何一个都可以打开六个门中的任何一个,但在此过程中消耗。因此,为了打开最后两扇门,代理商必须放弃打开两个更容易找到的门,并立即奖励它打开它们。
为了激励这种行为,代理人应该获得足够的内在奖励来保存关键,以平衡外在奖励的损失,尽早使用它们。根据我们对RND代理人行为的分析,它没有足够大的动力来尝试这种策略,并且很少偶然发现它。
解决这个以及需要高水平探索的类似问题是未来工作的重要方向。