论文速读记录 | 2025.02




SEABO: A Simple Search-Based Method for Offline Imitation Learning

  • arxiv:https://arxiv.org/abs/2402.03807
  • GitHub:https://github.com/dmksjfl/SEABO
  • 来源:好像是师兄的工作,ICLR 2024。
  • 主要内容:
    • 故事:Offline RL 中的 distribution shift 问题,在 offline IL 中也同样存在(好有道理,感觉是适合发论文的思考方式)。貌似已经有研究将 Offline RL 中限制 policy 与行为策略接近的方法应用到 IL 中了。
    • SEABO 的主要思想:根据 expert demo 建立一个 KD 树,基于 KD 树判断一个 transition 或 state 是否接近专家轨迹,如果接近,就给它分配更高的 reward。最后,通过这些标记的 reward 应用 offline RL 算法。
      • (无端联想,好像有人说 RLHF 的 reward model 用神经网络会有局限性,比如更倾向于长的输出;如果用树模型等方式可能会更好;好像是 deepseek 说的)
    • 技术细节:
      • (s,a,s') 的 reward = exp[-β  它与最近邻的欧几里得距离 / 动作空间维度];
      • 最近邻是指与当前点欧几里得距离最小的 expert transition,使用 KD tree 来寻找。
      • KD tree:是二叉树在 K-dimension 空间的拓展,KD- tree 算法详解
    • SEABO 做了一个 demo 实验,发现学出来的 reward 跟 ground truth reward 很接近。(无端联想,这可以作为一种 reward shaping 思路)
    • 实验:
      • 在 D4RL 上进行实验,包含 walker、halfcheetah 等 MuJoCo 环境,以及 AntMaze 和 adroid。
      • Setting:一条专家轨迹 + D4RL 的不含 reward 信号的 offline dataset。
      • Baselines:ground truth 的 IQL、reward learning + IQL、IL。

Training Agents using Upside-Down Reinforcement Learning

  • arxiv:https://arxiv.org/abs/1912.02877
  • 来源:曾经感兴趣的 Upside Down RL。
  • 主要内容:
    • UDRL 是一种 hindsight 方法,它的 hindsight 数据是 (episode 剩余 return 大小, episode 剩余步数),与 Decision Transformer 训练数据类似。
    • 具体的,UDRL 使用监督学习来学习 policy,输入为 state 和 hindsight 信息,输出为 action 的概率分布;UDRL 在 online RL 中进行实验,而 DT 是 offline 的。
    • UDRL 声称这种 hindsight 方法有一些可能的优势,包括:1. 适用于稀疏 / delayed reward,2. 受决策频率影响小,3. 干掉了现实中其实并不存在的 discount factor,4. 可以用监督学习处理复杂的 transition 数据。
  • 另一篇提出 UDRL 的文章:
    • 文章标题:Reinforcement Learning Upside Down: Don't Predict Rewards -- Just Map Them to Actions
    • arxiv:https://arxiv.org/abs/1912.02875
    • 感觉这一篇的可读性不如上一篇。
  • 还有一篇关于 UDRL 的 5 页短文:
    • 文章标题:All You Need Is Supervised Learning: From Imitation Learning to Meta-RL With Upside Down RL
    • arxiv:https://arxiv.org/abs/2202.11960
    • 主要内容:通过 hindsight 方法,将 offline RL、goal-conditioned RL、meta RL 和 POMDP 场景转化为监督学习问题,并直接应用 UDRL 的 π(a|s,c) 策略形式。

Co-evolved Self-Critique: Enhancing Large Language Models with Self-Generated Data

  • open review:https://openreview.net/forum?id=jQR6ftuL2a
  • 来源:在 Open Review 上看到的。
  • 主要内容:
    • 这篇文章关注 LLM 微调,采用的方法是 SFT(Supervised Fine-Tuning)。
    • 思想貌似很简单;我们有一批高质量 QA 数据,
      • ① 首先让 LLM 在这批高质量数据上进行 SFT,然后让 LLM 生成一批“以假乱真”的数据。
      • ② 让 LLM 自己判断数据的真假,通过 prompt 实现,prompt 内容为:请帮我判断以下 QA 是高质量数据(输出 M)还是自己生成的(输出 m),Q 是...,A 是...;期望的输出是 M / m,对应的 ground truth 输出也是 M / m。通过这种方式,可以用数据真假的这些 query 进行 SFT,loss function 如公式 1 所示。
      • ③ 现在我们的数据集包 高质量数据 + LLM 生成的数据,新的 SFT 数据集是 高质量数据 + LLM 生成数据中,LLM 自认为是高质量数据的 置信度大于一个阈值的子集。
      • 循环训练步骤 ② 和 ③。
    • 实验:微调的 LLM 是 Llama-3-8B,使用的高质量数据来自 UltraChat200k。
    • 思考:这种 生成-判别-生成-判别 的算法,本质上是一种对 expert 数据的增强方法,它只能更充分、更快地应用专家数据,因此,可能相比于通常 SFT 方法更加高效,虽然这种优势的代价是计算效率。然而,如果使用 RLHF 范式,例如用专家数据和自己生成的数据,对比学习得到 reward model,可能会提升数据效率 / 计算效率(?)

Successor Features for Transfer in Reinforcement Learning

  • arxiv:https://arxiv.org/abs/1606.05312
  • 来源:合作者推荐的文章,发表在 2017 年 NeurIPS。
  • 主要内容:
    • Generalized Policy Improvement(GPI):假设有 n 个 policy π1,,πn,它们学习的 Q function 误差满足 |Q~πi(s,a)Qπi(s,a)|ϵ,s,a。定义组合策略 π(s)argmaxamaxiQ~πi(s,a),那么有 Qπ(s,a)maxiQπi(s,a)2ϵ1γ。这是文章中的定理 1。
    • Successor Feature:假设系统的 reward 可以通过 (s, a, s') 特征与固定权重 w 的内积来计算,即 r(s,a,s)=ϕ(s,a,s)Tw。在这种情况下,Qπ(s,a)=Ψπ(s,a)Tw,即将权重 w 从 Q function 中提取出来。这样,计算策略 π 的 Q function,就转化为计算它的 Ψπ(s,a)
    • GPI + Successor Feature:可以推出定理 2,大致是说,在满足 Successor Feature 假设的 multi-task setting 下,可以认为不同任务有不同的 w。如果我们对 n 个任务计算出了误差为 ϵ 的 Q function,那么对于一个新任务 w,可以通过 π(s)argmaxamaxiΨπi(s,a)Tw 得到一个与最优 Q function 具有 21γ(ϕmaxTmini|wwi|+ϵ) 误差的策略,其中 ϕmax=maxs,a|ϕ(s,a)|。(这是个人理解,可能不完全准确)

Optimistic planning of deterministic systems

  • arxiv:https://arxiv.org/abs/1707.06170
  • 来源:[mask]
  • 主要内容:
    • 提出了一种基于树搜索的 planning 方法。假设 env 是确定性的,每一步 reward 都在 [0, 1] 的范围内;我们每次选择 return 的上界最大的节点进行探索,即对于目前探索过的所有 state,选择 return 上界计算出来最大的 action 给 env 进行模拟。
    • 计算 (s,a) 的 return 上界 b(s,a):如果 (s,a) 未被探索,则 b(s,a) = 根节点到 s 的累积折扣奖励 + 假设 s 往后的 reward 都是 1 得到的乐观上界,即 b(s,a)=R(s,a)+k=dγk=R(s,a)+γk/(1γ) 。如果 (s,a) 已被探索,则 b(s,a) = 它的子节点中最高的 b 值。
    • 文章中似乎给出了一个理论,表示当最优路径稀疏时(如只有一条最优路径),regret 随着规划的模拟次数 n 指数下降。没有仔细看理论。
    • 可直接调用的封装好的代码:highway_planning.ipynb

Learning Augmented Index Policy for Optimal Service Placement at the Network Edge

  • arxiv:https://arxiv.org/abs/2101.03641
  • 来源:合作者提到的文章。
  • 主要内容:
    • 这篇文章用 index policy 来求解边缘计算场景。首先,将边缘计算建模为排队场景:
      • 我们有 N 个设备,设备 i 产生满足 λi 泊松过程的请求,edge server 处理设备 i 请求的时间服从 μi 指数分布,设备 i 未处理的请求数记为 Si(其实就是状态)。
      • edge server 内存 / 显存有限,每次只能加载 K<N 个程序来处理特定设备的请求,但一旦加载了设备 i 的程序,就可以并行处理 Si 个请求。
      • 目标是最小化所有请求的等待时间总和。action 是当前时刻选择加载哪 K 个设备程序,即激活哪 K 个 arm。
    • 我们对每个设备 i 单独考虑,假设激活 arm i 的代价是 W,但激活 arm i 的好处是可以同时处理 Si 个请求。可以发现,是否激活 arm i 的策略是一个关于 Si 的阈值策略。然后,文章貌似证明了联合 N 个 arm 的问题是 indexable,并给出了 Whittle index 的解析表达式。不太懂 index policy 的理论,没有细看。
    • 听说,在这种排队场景下的最优策略,应该呈现出 μc-rule(或 mu-c rule)的形式。μc-rule 好像在 1980 年左右就被提出,所以可能不需要再通过 Whittle index 来求解它。这可能也是文章现在还没发出来,一直挂在 arxiv 的原因。不过,我没有去看 μc-rule,也没有验证这个说法的准确性,所以不知道是否是真的。

本文作者:MoonOut

本文链接:https://www.cnblogs.com/moonout/p/18697307

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   MoonOut  阅读(64)  评论(3编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起
  1. 1 Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto Jascha Heifetz / Chicago Symphony Orchestra
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto - Jascha Heifetz / Chicago Symphony Orchestra
00:00 / 00:00
An audio error has occurred.