IL 相关读论文记录
读读读
RILIR
链接:https://arxiv.org/pdf/2310.14274.pdf
本文主要是对 IRL 的改进。
首先,设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。
接着,再设计了一个网络 \(f_\theta(\phi(o_t),\phi(o_{t+1}))\) 来预测相邻两个状态之间所进行的 action。这样,在计算 loss 值进行反向传播的时候,除了 DQN 中基本的一项(实际的 \(Q(\phi(o_t),a_t)\) 值和通过 TD 得到的预测值之间的 MSE)之外,还加上了由于当前 状态下 learning action 和 expert action 不同所造成的 loss。
最后,考虑了 reward 该如何产生。经典的做法和 GAN 类似设计了一个 discriminator 来分辨是 expert 数据还是自己产生的,拿相似程度当做 reward。本文中同时从整体的 trajectory 维度和局部 action 维度来制定 reward。trajectory 维度利用 Wasserstein 距离求出 \(R_1\),而 action 维度通过训练 discriminator,利用和 GAIL 相似的方法求出 \(R_2\)。合起来就可以用来作为 reward 训练 Q-network 了。
PIE-G
提出了一种基于 pre-trained image encoder 大模型的强化学习方法,用于解决环境变化的情况。
将 resnet 的网络接入 encoder 中并 frozen,其余和正常 RL 基本一样。本文中选用的是 DDPG。也是类似于 actor-critic,critic 作为 Q 函数求出 \(Q(s,a)\),actor 作为策略返回一个动作的分布。在 DDPG 中,每次有两个 Q,分别为 \(q_1,q_2\),取 min 更新。
ROT
提出了一种 IRL 的方法。
-
BC 预处理一下得到预训练模型(这个模型读入state输出action),用 MSE,体现在代码中就是写入到 weights 中
-
模型训练时首先考虑让 critic 的 Q 函数值最大,而且不能比预训练出的 Q 更差,使用 adaptive 的函数进行调参。
-
生成 reward (应该)使用的是和 expert 进行求 sinkhorn distance
在 Related work 中还梳理了一下 IL 和 OT:
IL 主要分为 BC 和 IRL,IRL 又可以分为基于对抗学习(adversarial)和状态匹配(state-matching)的。前者代表为 GAIL(以及一堆,见论文引用)。后者有基于 optimal transport,也有像 RILIR 一样 element-wise 和 trajectory level 结合的。
OT:主要有 sinkhorn、Wasserstein 等。用 sinkhorn 比较多。