IL 相关读论文记录

读读读

RILIR

链接：https://arxiv.org/pdf/2310.14274.pdf

本文主要是对 IRL 的改进。

首先，设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。
接着，再设计了一个网络 \(f_\theta(\phi(o_t),\phi(o_{t+1}))\) 来预测相邻两个状态之间所进行的 action。这样，在计算 loss 值进行反向传播的时候，除了 DQN 中基本的一项（实际的 \(Q(\phi(o_t),a_t)\) 值和通过 TD 得到的预测值之间的 MSE）之外，还加上了由于当前状态下 learning action 和 expert action 不同所造成的 loss。

最后，考虑了 reward 该如何产生。经典的做法和 GAN 类似设计了一个 discriminator 来分辨是 expert 数据还是自己产生的，拿相似程度当做 reward。本文中同时从整体的 trajectory 维度和局部 action 维度来制定 reward。trajectory 维度利用 Wasserstein 距离求出 \(R_1\)，而 action 维度通过训练 discriminator，利用和 GAIL 相似的方法求出 \(R_2\)。合起来就可以用来作为 reward 训练 Q-network 了。

PIE-G

提出了一种基于 pre-trained image encoder 大模型的强化学习方法，用于解决环境变化的情况。

将 resnet 的网络接入 encoder 中并 frozen，其余和正常 RL 基本一样。本文中选用的是 DDPG。也是类似于 actor-critic，critic 作为 Q 函数求出 \(Q(s,a)\)，actor 作为策略返回一个动作的分布。在 DDPG 中，每次有两个 Q，分别为 \(q_1,q_2\)，取 min 更新。

ROT

提出了一种 IRL 的方法。

BC 预处理一下得到预训练模型（这个模型读入state输出action），用 MSE，体现在代码中就是写入到 weights 中
模型训练时首先考虑让 critic 的 Q 函数值最大，而且不能比预训练出的 Q 更差，使用 adaptive 的函数进行调参。
生成 reward （应该）使用的是和 expert 进行求 sinkhorn distance

在 Related work 中还梳理了一下 IL 和 OT：
IL 主要分为 BC 和 IRL，IRL 又可以分为基于对抗学习（adversarial）和状态匹配（state-matching）的。前者代表为 GAIL（以及一堆，见论文引用）。后者有基于 optimal transport，也有像 RILIR 一样 element-wise 和 trajectory level 结合的。
OT：主要有 sinkhorn、Wasserstein 等。用 sinkhorn 比较多。

posted @ 2024-04-16 20:49 SkyRainWind 阅读(31) 评论(0) 编辑收藏举报

刷新页面返回顶部

SkyRainWind

空を見ろ。空を見続けろ。答えはそこにある。

IL 相关读论文记录

RILIR

PIE-G

ROT

公告