offline RL · PbRL | OPPO:PbRL 场景的 offline hindsight transformer




主要内容

  • 在 A+B 场景中应用了 C 方法:A - PbRL、B - offline RL、C - HIM。
  • 猜测动机:
    • abstract 中提到,env dynamics 跟任务目标是正交的;既然任务目标有正交性,感觉就可以通过 hindsight 方式,学习 env dynamics。
  • 模块介绍:
    • information statistics:感觉是得到 hindsight 的方式,输入可能是 RL sequence / RL trajectory 的全局信息,输出是 8(halfcheetah)或 16 维的向量。
  • 具体算法:
    • 交替进行 ① ②。
    • ① 训练条件策略 \(a=\pi(s,z)\)(同时训练 information statistics)。
    • 具体的,采样一波轨迹,用 information statistics 计算 hindsight,然后可能将 hindsight 作为 RL sequence 中的一部分(就像 DT 中 {s, a, R, s, ...} 的 R),这样训练 action。
    • ② 训练 \(a=\pi(s,z)\) 中的最优 z*(论文中称为最优 context)(同时训练 information statistics)。
    • 具体的,采样 segment pair τ+ τ-,计算它们的 latent(通过 information statistics)z+ z-,然后让 z* 尽量靠近 z+、远离 z-。
  • 个人的 random 感觉:
    • rebuttal 有点不够认真… 参见 general response 这种话(并且 general response 感觉也没有什么信息量),感觉有点不好,不过我也不懂…(后来发现,好像如果 general response 有信息量,也没什么不好的,比如 HIM 就是这样大幅提分)
    • 还有,这个风格感觉刻意模仿 Pieter Abbeel 组,该不会被恶意审稿了叭(后来发现,好像挺多人采用这种方式写作,比我原先想象多一些,所以应该没关系……)
    • 感觉 literature review 写的不够认真,感觉像是工作罗列(是不是赶稿赶出来的ww)
    • 感觉就是在 A+B 场景中应用了 C 方法(A - PbRL、B - offline RL、C - HIM),不过应用的相对合理。(后来感觉,好像也没很合理,很担心它训不出来…)
    • 没有 DT 和 HIM 文章中的彩色伪代码,遗憾的,不然感觉技术细节可以表述更清楚。

0 abstract

This study focuses on the topic of offline preference-based reinforcement learning (PbRL), a variant of conventional reinforcement learning that dispenses with the need for online interaction or specification of reward functions. Instead, the agent is provided with pre-existing offline trajectories and human preferences between pairs of trajectories to extract the dynamics and task information, respectively. Since the dynamics and task information are orthogonal, a naive approach would involve using preference-based reward learning followed by an off-the-shelf offline RL algorithm. However, this requires the separate learning of a scalar reward function, which is assumed to be an information bottleneck. To address this issue, we propose the offline preference-guided policy optimization (OPPO) paradigm, which models offline trajectories and preferences in a one-step process, eliminating the need for separately learning a reward function. OPPO achieves this by introducing an offline hindsight information matching objective for optimizing a contextual policy and a preference modeling objective for finding the optimal context. OPPO further integrates a well-performing decision policy by optimizing the two objectives iteratively. Our empirical results demonstrate that OPPO effectively models offline preferences and outperforms prior competing baselines, including offline RL algorithms performed over either true or pseudo reward function specifications.

  • background:
    • offline PbRL,提供 offline trajectory 和人类对轨迹的偏好,以分别提取 system dynamics 和任务信息。
    • 由于动态信息和任务信息是正交的(无端联想,这种正交就很适合 hindsight,比如 HER),因此,一种简单的方法是 PbRL 学 reward model + offline RL 使用新标记的 reward。然而,这需要单独学习 reward function,是信息瓶颈(information bottleneck)(?)。
  • method:
    • (声称可以 end-to-end 通过 preference 直接学到 policy)
    • Offline Preference-guided Policy Optimization(OPPO),通过 one-step procedure 对 offline trajectory + preference 进行建模,无需单独学习 reward function。
    • OPPO 引入了一个 offline hindsight information matching objective(一个 offline 的 后见之明信息匹配 HIM objective),用于优化 contextual policy(上下文策略 \(a=\pi(s,z)\) );引入了一个 preference modeling objective(建模 preference 的 objective),用于寻找最优 context。
    • OPPO 通过对这两个目标迭代优化,得到 policy。
  • results:在 D4RL 上,OPPO 性能优于先前的 competitive baselines(一些使用真实或伪 reward 的 offline RL 算法)。

open review

  • method:
    • 从轨迹中学习一个 context embedding,然后学习一个 conditioned on context 的 policy。基于 human preference,学最优 context。
  • contributions:
    • 作者声称,相比 ① 学 reward model ② 用 reward model 给 offline trajectory 标记 reward 并跑 offline RL 的 two-step method,end-to-end 直接得到 policy,在“遇到复杂任务”(例如,preference 中包含非马尔可夫信息)和存在 noisy preference 时是有益的,因为在这种情况下,learned reward model 不完善,噪音会被引入政策学习。
    • (reviewer 认为,这些说法听起来很合理,但没有做相关的对比实验,比如引入非马尔可夫 reward 和 noisy preference(?),因此没有证明 OPPO 相对 two-step offline PbRL 的优势)
  • 优点:
    • idea 很有趣,很有现实意义。(似乎被好几个 reviewer 盛赞了?论文 submit 在 2023 年 1 月)
    • 从理论上讲,OPPO 适用于非马尔可夫的偏好信号。对于现实世界的 PbRL 来说,这是一个重要的问题,因为不能假设真实人类具有马尔可夫性。作者:然而,我们认为 OPPO 在非马尔可夫任务上的优势,可能源于我们的实现使用了 transformer,这是一种通常用于序列建模的模型。(…)
  • 缺点:
    • novelty:
      • 像是 hindsight information matching (HIM)(一种监督学习方法)的应用。
      • 学习 reward model 与学 context + optimal context,感觉是一回事。
    • 写作不好。(确实,感觉摘要就有点读不懂)
    • 一般来说,离线 RL 依靠 pessimistic 来克服 distribution shift,但是 OPPO 不需要,为什么呢?(DT 和 HIM 貌似也不需要,大概是因为 transformer)
    • experiments:
      • 4 个 baselines 中只有一个 (Table 2) 是真正的 PbRL 算法。
      • 应考虑非运动任务(non-locomotion tasks)。
      • 没有真实的 human feedback(因为他们最初声称 human preference 可能包括噪音、不正确和非马尔可夫)。
      • 应评估所需的 preference queries 数量,因为这通常是 PbRL 的一个限制因素。
      • 没有跑 D4RL 的 random dataset。好像并不总是 outperform baselines。

发现 offline PbRL 还有两个先前工作:1. OPAL 采用 MLP,2. PT 采用 Transformer。

upside-down RL 貌似是神秘工作,跟 HER 并列出现。

(感觉 related work 有点浅,没有看到好看的信息…)

3 preliminaries:3.2 Hindsight Information Matching

  • 对 HIM 进行神秘 offline 魔改,先学 trajectory,再学 I(τ) 与 z 相似。

    • 在 offline 场景下,需要先对 trajectory 本身进行建模,目标函数的一部分是 \(\min_\pi \mathbb E_{\tau\sim D(\tau),\tau_z\sim\pi(z)}[l(\tau,\tau_z)]\) ,其中 L 是 loss function。
    • 然后再去最小化,我们的 trajectory 的 information statistics 与 z 相似。
  • 整体的 HIM objective 是: \(\min_\pi \mathbb E_{\tau\sim D(\tau),\tau_z\sim\pi(z)} \bigg[l(I(\tau),I(\tau_z))+l(\tau,\tau_z)\bigg]\)

    • 原来如此!公式中 τ_z 是我们生成的 trajectory;希望它尽可能接近原有 trajectory,是为了防止 OOD。

4 OPPO: Offline Preference-guided Policy Optimization

4.1 HIM-driven Policy Optimization

  • HIM objective: \(\min_{\pi,I_\theta} \mathbb E_{\tau\sim D(\tau),\tau_z\sim\pi(z)} \bigg[l(I_\theta(\tau),I_\theta(\tau_z))+l(\tau,\tau_z)\bigg]\)
  • 目标:最小化 trajectory OOD loss + information statistics 的 loss。
    • 跟 section 3 的 objective 不同,这里面的 \(I_\theta\) 是需要我们学的。
    • 一边学 information statistics,一边用得到的 information statistics 作为 hindsight 学 action(DT 和 HIM 的训练方法),真能学出来嘛(?)

4.2 Preference Modeling

  • objective: \(\min_{z^*,I_\theta}\mathbb E_{(\tau^i,\tau^j,y)\sim D_\succ}\bigg[l(z^*,z^+)-l(z^*,z^-)\bigg]\)

    • 其中,z* 是我们希望得到的最优 embedding,用于在 conditional policy \(a=\pi(s,z)\) 中生成最优 policy。z+ z-,是 query 中的好轨迹 / 坏轨迹的 embedding。
    • embedding:应该是用 information statistics \(I_\theta\) 提取的吧。
  • 目标:希望 z* 能尽可能接近 z+、远离 z-。

    • 然后,我们就直接使用 \(\pi(s,z^*)\) ,作为最终输出的策略了。
    • (z 只是一个 embedding 而已,这应该是能训出来的…)
    • (不过可怕的事情是,这个 embedding 是 information statistics 变换得到的,如果前面 4.1 的训练中 information statistics 乱变,岂不像是打移动靶…… 并且这一步的 information statistics 还要再训,感觉在同时训大量相互影响的模块,真能训出来嘛(?))
    • 不同于基于 HIM 的 offline RL 算法(例如 DT、RvS-G),OPPO 不需要在 evaluate 阶段手动指定 policy \(\pi(a|s,\cdot)\) 的目标上下文 z。(发现这篇文章在措辞上,好像用 context 代替了 hindsight)

4.3 算法

训练过程:

  • 交替更新 z* 和 information statistics \(I_\theta\)

算法:

  • 输出:conditional policy \(\pi(a|s,z)\) 和最优 embedding z*。
  • HIM-driven Policy Optimization:
    • 从 dataset D 中 sample 一个 batch 的 trajectory τ。
    • 使用 HIM objective,更新 \(\pi(a|s,z)\)\(I_\theta\)
    • 目标:寻找 trajectory τ_z 使其分布与 τ 相似(不要 OOD),同时训练 information statistics \(I_\theta\) 使 τ_z 和 τ 的 information statistics 相似。
    • 希望:给定 encoder 从 offline trajectory 中提取出来的 z,policy 能够重建这个 trajectory。
  • Preference Modeling:
    • 从 dataset \(D_\succ\) 中 sample 一个 batch 的 preference \(\{(\tau^i,\tau^j,y)\}\)
    • 使用 preference modeling 的 objective,更新 \(I_\theta\) 和 optimal z*。
    • 目标:使最优嵌入 z* 接近更优的轨迹 z+ 、远离轨迹 z− 。

实现细节:

  • 添加 normalization loss,对 Iθ 产生的 embedding 的 L2 范数进行惩罚。

  • 所有的 loss:

    • 1 更新 information statistics(轨迹 embedding 的 encoder),让 hindsight = IS(s, a, s, ...) 时,seq2seq model 能输出下一个 action。
    • 2 push 最优 embedding 去接近 segment pair 里的好轨迹的 embedding、远离坏轨迹的 embedding。
    • 3 对 embedding 的 L2 范数进行惩罚。
  • 代码基于 DT。benchmark 是 D4RL。

  • z* 的维度为 8(halfcheetah)或 16(其他任务)。

  • Transformer 的超参数:

    • Number of layers(层数):3。
    • Number of attention heads:2 for encoder transformer,1 for decision transformer(这么少嘛,记得 DT 是 8 个 heads)。
    • Embedding dimension(embedding 维度):128。
  • 在包含 20 个 GeForce RTX 2080 Ti 和 4 个 NVIDIA Tesla V100 32GB 的计算集群上运行 20 天。(这边的情报说 2 块 24gb 的 3090 跑 3h 就能训出一个 DT 了,不过 1. 对 GPU 性能没概念,2. 没亲自跑过 DT,所以不了解…)

  • 详见 Appendix 1。

5 experiment

OPPO 的 baselines:

  • DT 使用 reward-to-go,DT 使用普通 PbRL 的 learned reward function;
  • CQL + ground truth reward,IQL + ground truth reward。


posted @ 2024-02-27 21:38  MoonOut  阅读(65)  评论(0编辑  收藏  举报