论文速读记录 | 2025.02

SEABO: A Simple Search-Based Method for Offline Imitation Learning
Training Agents using Upside-Down Reinforcement Learning
Co-evolved Self-Critique: Enhancing Large Language Models with Self-Generated Data
Successor Features for Transfer in Reinforcement Learning
Optimistic planning of deterministic systems
Learning Augmented Index Policy for Optimal Service Placement at the Network Edge

SEABO: A Simple Search-Based Method for Offline Imitation Learning

arxiv：https://arxiv.org/abs/2402.03807
GitHub：https://github.com/dmksjfl/SEABO
来源：好像是师兄的工作，ICLR 2024。
主要内容：
- 故事：Offline RL 中的 distribution shift 问题，在 offline IL 中也同样存在（好有道理，感觉是适合发论文的思考方式）。貌似已经有研究将 Offline RL 中限制 policy 与行为策略接近的方法应用到 IL 中了。
- SEABO 的主要思想：根据 expert demo 建立一个 KD 树，基于 KD 树判断一个 transition 或 state 是否接近专家轨迹，如果接近，就给它分配更高的 reward。最后，通过这些标记的 reward 应用 offline RL 算法。
  - （无端联想，好像有人说 RLHF 的 reward model 用神经网络会有局限性，比如更倾向于长的输出；如果用树模型等方式可能会更好；好像是 deepseek 说的）
- 技术细节：
  - (s,a,s') 的 reward = exp[-\(\beta ~\cdot\) 它与最近邻的欧几里得距离 / 动作空间维度]；
  - 最近邻是指与当前点欧几里得距离最小的 expert transition，使用 KD tree 来寻找。
  - KD tree：是二叉树在 K-dimension 空间的拓展，KD- tree 算法详解。
- SEABO 做了一个 demo 实验，发现学出来的 reward 跟 ground truth reward 很接近。（无端联想，这可以作为一种 reward shaping 思路）
- 实验：
  - 在 D4RL 上进行实验，包含 walker、halfcheetah 等 MuJoCo 环境，以及 AntMaze 和 adroid。
  - Setting：一条专家轨迹 + D4RL 的不含 reward 信号的 offline dataset。
  - Baselines：ground truth 的 IQL、reward learning + IQL、IL。

Training Agents using Upside-Down Reinforcement Learning

arxiv：https://arxiv.org/abs/1912.02877
来源：曾经感兴趣的 Upside Down RL。
主要内容：
- UDRL 是一种 hindsight 方法，它的 hindsight 数据是 (episode 剩余 return 大小, episode 剩余步数)，与 Decision Transformer 训练数据类似。
- 具体的，UDRL 使用监督学习来学习 policy，输入为 state 和 hindsight 信息，输出为 action 的概率分布；UDRL 在 online RL 中进行实验，而 DT 是 offline 的。
- UDRL 声称这种 hindsight 方法有一些可能的优势，包括：1. 适用于稀疏 / delayed reward，2. 受决策频率影响小，3. 干掉了现实中其实并不存在的 discount factor，4. 可以用监督学习处理复杂的 transition 数据。
另一篇提出 UDRL 的文章：
- 文章标题：Reinforcement Learning Upside Down: Don't Predict Rewards -- Just Map Them to Actions
- arxiv：https://arxiv.org/abs/1912.02875
- 感觉这一篇的可读性不如上一篇。
还有一篇关于 UDRL 的 5 页短文：
- 文章标题：All You Need Is Supervised Learning: From Imitation Learning to Meta-RL With Upside Down RL
- arxiv：https://arxiv.org/abs/2202.11960
- 主要内容：通过 hindsight 方法，将 offline RL、goal-conditioned RL、meta RL 和 POMDP 场景转化为监督学习问题，并直接应用 UDRL 的 \(\pi(a|s,c)\) 策略形式。

Co-evolved Self-Critique: Enhancing Large Language Models with Self-Generated Data

open review：https://openreview.net/forum?id=jQR6ftuL2a
来源：在 Open Review 上看到的。
主要内容：
- 这篇文章关注 LLM 微调，采用的方法是 SFT（Supervised Fine-Tuning）。
- 思想貌似很简单；我们有一批高质量 QA 数据，
  - ① 首先让 LLM 在这批高质量数据上进行 SFT，然后让 LLM 生成一批“以假乱真”的数据。
  - ② 让 LLM 自己判断数据的真假，通过 prompt 实现，prompt 内容为：请帮我判断以下 QA 是高质量数据（输出 M）还是自己生成的（输出 m），Q 是...，A 是...；期望的输出是 M / m，对应的 ground truth 输出也是 M / m。通过这种方式，可以用数据真假的这些 query 进行 SFT，loss function 如公式 1 所示。
  - ③ 现在我们的数据集包高质量数据 + LLM 生成的数据，新的 SFT 数据集是高质量数据 + LLM 生成数据中，LLM 自认为是高质量数据的置信度大于一个阈值的子集。
  - 循环训练步骤 ② 和 ③。
- 实验：微调的 LLM 是 Llama-3-8B，使用的高质量数据来自 UltraChat200k。
- 思考：这种生成-判别-生成-判别的算法，本质上是一种对 expert 数据的增强方法，它只能更充分、更快地应用专家数据，因此，可能相比于通常 SFT 方法更加高效，虽然这种优势的代价是计算效率。然而，如果使用 RLHF 范式，例如用专家数据和自己生成的数据，对比学习得到 reward model，可能会提升数据效率 / 计算效率（？）

Successor Features for Transfer in Reinforcement Learning

arxiv：https://arxiv.org/abs/1606.05312
来源：合作者推荐的文章，发表在 2017 年 NeurIPS。
主要内容：
- Generalized Policy Improvement（GPI）：假设有 \(n\) 个 policy \(\pi_1, \cdots, \pi_n\)，它们学习的 Q function 误差满足 \(|\tilde Q^{\pi_i}(s,a) - Q^{\pi_i}(s,a)| \le \epsilon, \forall s, a\)。定义组合策略 \(\pi(s)\in\arg\max_a\max_i \tilde Q^{\pi_i}(s,a)\)，那么有 \(Q^\pi(s,a) \ge \max_i Q^{\pi_i}(s,a) - \frac{2\epsilon}{1-\gamma}\)。这是文章中的定理 1。
- Successor Feature：假设系统的 reward 可以通过 (s, a, s') 特征与固定权重 w 的内积来计算，即 \(r(s,a,s') = \phi(s,a,s')^T w\)。在这种情况下，\(Q^\pi(s,a) = \Psi^\pi(s,a)^T w\)，即将权重 \(w\) 从 Q function 中提取出来。这样，计算策略 \(\pi\) 的 Q function，就转化为计算它的 \(\Psi^\pi(s,a)\)。
- GPI + Successor Feature：可以推出定理 2，大致是说，在满足 Successor Feature 假设的 multi-task setting 下，可以认为不同任务有不同的 \(w\)。如果我们对 \(n\) 个任务计算出了误差为 \(\epsilon\) 的 Q function，那么对于一个新任务 \(w\)，可以通过 \(\pi(s) \in \arg\max_a \max_i \Psi^{\pi_i}(s,a)^T w\) 得到一个与最优 Q function 具有 \(\frac{2}{1-\gamma}(\phi_{\max}^T \min_i |w-w_i| + \epsilon)\) 误差的策略，其中 \(\phi_{\max} = \max_{s,a}|\phi(s,a)|\)。（这是个人理解，可能不完全准确）

Optimistic planning of deterministic systems

arxiv：https://arxiv.org/abs/1707.06170
来源：[mask]
主要内容：
- 提出了一种基于树搜索的 planning 方法。假设 env 是确定性的，每一步 reward 都在 [0, 1] 的范围内；我们每次选择 return 的上界最大的节点进行探索，即对于目前探索过的所有 state，选择 return 上界计算出来最大的 action 给 env 进行模拟。
- 计算 (s,a) 的 return 上界 b(s,a)：如果 (s,a) 未被探索，则 b(s,a) = 根节点到 s 的累积折扣奖励 + 假设 s 往后的 reward 都是 1 得到的乐观上界，即 \(b(s,a) = R(s,a) + \sum_{k=d}^{\infty}\gamma^k = R(s,a) + \gamma^k/(1-\gamma)\) 。如果 (s,a) 已被探索，则 b(s,a) = 它的子节点中最高的 b 值。
- 文章中似乎给出了一个理论，表示当最优路径稀疏时（如只有一条最优路径），regret 随着规划的模拟次数 \(n\) 指数下降。没有仔细看理论。
- 可直接调用的封装好的代码：highway_planning.ipynb

Learning Augmented Index Policy for Optimal Service Placement at the Network Edge

arxiv：https://arxiv.org/abs/2101.03641
来源：合作者提到的文章。
主要内容：
- 这篇文章用 index policy 来求解边缘计算场景。首先，将边缘计算建模为排队场景：
  - 我们有 \(N\) 个设备，设备 \(i\) 产生满足 \(\lambda_i\) 泊松过程的请求，edge server 处理设备 \(i\) 请求的时间服从 \(\mu_i\) 指数分布，设备 \(i\) 未处理的请求数记为 \(S_i\)（其实就是状态）。
  - edge server 内存 / 显存有限，每次只能加载 \(K < N\) 个程序来处理特定设备的请求，但一旦加载了设备 \(i\) 的程序，就可以并行处理 \(S_i\) 个请求。
  - 目标是最小化所有请求的等待时间总和。action 是当前时刻选择加载哪 \(K\) 个设备程序，即激活哪 \(K\) 个 arm。
- 我们对每个设备 \(i\) 单独考虑，假设激活 arm \(i\) 的代价是 \(W\)，但激活 arm \(i\) 的好处是可以同时处理 \(S_i\) 个请求。可以发现，是否激活 arm i 的策略是一个关于 \(S_i\) 的阈值策略。然后，文章貌似证明了联合 \(N\) 个 arm 的问题是 indexable，并给出了 Whittle index 的解析表达式。不太懂 index policy 的理论，没有细看。
- 听说，在这种排队场景下的最优策略，应该呈现出 μc-rule（或 mu-c rule）的形式。μc-rule 好像在 1980 年左右就被提出，所以可能不需要再通过 Whittle index 来求解它。这可能也是文章现在还没发出来，一直挂在 arxiv 的原因。不过，我没有去看 μc-rule，也没有验证这个说法的准确性，所以不知道是否是真的。

posted @ 2025-02-03 03:49 MoonOut 阅读(170) 评论(3) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

论文速读记录 | 2025.02

SEABO: A Simple Search-Based Method for Offline Imitation Learning

Training Agents using Upside-Down Reinforcement Learning

Co-evolved Self-Critique: Enhancing Large Language Models with Self-Generated Data

Successor Features for Transfer in Reinforcement Learning

Optimistic planning of deterministic systems

Learning Augmented Index Policy for Optimal Service Placement at the Network Edge

公告