PbRL | 速通 ICLR 2024 RLHF · PbRL

检索关键词：ICLR 2024、reinforcement learning、preference、human feedback。

https://openreview.net/search?term=ICLR+2024+reinforcement+learning+preference+human+feedback&group=all&content=all&source=forum

Contrastive Preference Learning: Learning from Human Feedback without Reinforcement Learning
Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration
CPPO: Continual Learning for Reinforcement Learning with Human Feedback
Provable Offline Reinforcement Learning with Human Feedback
Learning Differentially Private Rewards from Human Feedback
Active Teacher Selection for Reinforcement Learning from Human Feedback
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback
Safe RLHF: Safe Reinforcement Learning from Human Feedback
Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism
Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback
Sequential Preference Ranking for Efficient Reinforcement Learning from Human Feedback
Mixing Corrupted Preferences for Robust and Feedback-Efficient Preference-Based Reinforcement Learning
Quality Diversity through Human Feedback
RIME: Robust Preference-based Reinforcement Learning with Noisy Human Preferences
Hindsight PRIORs for Reward Learning from Human Preferences
LIRE: Listwise Reward Enhancement for Preference Alignment
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
Direct Preference-based Policy Optimization without Reward Modeling
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning
Making RL with Preference-based Feedback Efficient via Randomization

Contrastive Preference Learning: Learning from Human Feedback without Reinforcement Learning

6 6 8 8。通常，RLHF 算法分两个阶段运行：首先，使用人类偏好来学习奖励函数，其次，通过强化学习（RL）优化学习奖励来调整模型。这种范式假设人类的偏好是根据奖励分配的，但最近的研究表明，在用户的最优策略下，它们会遵循后悔（没有看懂他们 claim 的 RLHF 的弱点）。因此，从反馈中学习奖励函数不仅基于人类偏好的有缺陷的假设，而且还会导致难以理解的优化挑战，这些挑战源于RL阶段的策略梯度或引导。由于这些优化挑战，当代 RLHF 方法将自己限制在上下文强盗设置（例如，在大型语言模型中）或限制观察维度（例如，基于状态的机器人）。

我们通过引入一系列新的算法来克服这些限制，该算法使用人类偏好的后悔模型根据人类反馈优化行为。利用最大熵的原理，我们推导出了对比偏好学习（CPL），这是一种从偏好中学习最优策略的算法，无需学习奖励函数，从而规避了对RL的需求。CPL 完全脱离策略，仅使用简单的对比目标，并且可以应用于任意 MDP。与以前的工作相比，这使得 CPL 能够优雅地扩展到高维和顺序的 RLHF 问题。

Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration

貌似是 LLM 的应用，并且 5 5 5 挂了。在这项工作中，我们利用了这样一个事实，即人们通常可以选择获得人类反馈的上下文，以便最有效地识别一个好的策略，并将其形式化为离线上下文决斗强盗问题。针对该问题，我们给出了一种置信度上限式算法，并证明了多项式最坏情况后悔界。然后，我们在综合环境中提供经验确认，即我们的方法优于现有方法。之后，我们扩展了大型语言模型 RLHF 训练中实际使用的设置和方法。在这里，与三个真实世界数据集上的多个基线相比，我们的方法能够以更少的人类偏好样本达到更好的性能。

CPPO: Continual Learning for Reinforcement Learning with Human Feedback

5 6 6 8。基于人类反馈的强化学习的持续学习，在原始 PPO 算法中引入了样本权重，以调整策略学习和知识保留。具体而言，CPPO 引入了一种机制，用于决定哪些样本应用于加强政策学习，哪些样本应用于巩固过去的经验。这寻求在政策学习和知识保留之间取得良好的权衡。实验结果表明，CPPO 在与人类偏好保持一致方面优于持续学习（CL）的强基线。此外，与 PPO 相比，CPPO 在非持续场景中提供了更高效、更稳定的学习。

Provable Offline Reinforcement Learning with Human Feedback

7 7，spotlight。offline RL + RLHF。（1）使用最大似然估计（MLE）估计 implicit reward，并根据离线数据进行 general 的函数逼近，以及（2）在围绕 MLE 的置信度集上求解分布鲁棒规划问题。我们考虑了一般的奖励设置，其中奖励可以在整个轨迹上定义，并提供一种新的保证，允许我们学习任何具有多项式样本数的目标策略，只要目标策略被离线数据覆盖。这种保证是同类产品中第一个具有通用函数近似的保证。为了衡量目标策略的覆盖率，我们引入了一个新的单策略同心系数，该系数可以由每条轨迹的同心系数上界。我们还建立了下限，突出了这种集中性的必要性以及与标准 RL 的区别，在标准 RL 中，直接观察到状态行动的奖励。当通过动作对给出反馈时，我们进一步扩展和分析我们的算法。

感觉是哈人的理论。

Learning Differentially Private Rewards from Human Feedback

3 5 5 5。从人类反馈中研究强化学习的隐私性。从 preference ranking 中搞 RL，在差分隐私的约束下，真正的奖励是由线性函数给出的。提供了一种差分私有算法，用于从人类排名中学习奖励。

神秘 learning theory 领域，不太懂。

Active Teacher Selection for Reinforcement Learning from Human Feedback

5 5 5 6。RLHF 的核心局限性是，假设所有反馈都来自同一个人类教师，尽管询问了一系列不同的教师。我们提出了隐性效用强盗（HUB）框架来模拟教师合理性、专业知识和成本的差异，将向多个教师学习的问题正式化。我们开发了各种解决方案算法，并将其应用于两个现实世界领域：纸质推荐系统和 COVID-19 疫苗测试。我们发现，主动教师选择（ATS）算法通过主动选择何时以及查询哪位教师，优于基线算法。HUB框架和ATS算法证明了利用教师之间的差异来学习准确的奖励模型的重要性，从而促进了未来对主动教师选择的研究，以实现鲁棒的奖励模型。

感觉无聊，但说不定区分各个 teacher 的方法有用。

Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback

3 6 8。风险敏感强化学习（Risk-sensitive RL）旨在优化平衡预期回报和风险的策略。提出了一种新的 RSRL 框架，该框架在线性和一般函数近似下采用迭代条件风险值（Conditional Value-at-Risk，CVaR）目标，并通过人类反馈进行丰富。这些新配方提供了一种原则性的方法，可以保证整个控制过程中每个决策步骤的安全性。此外，将人类反馈集成到风险敏感的强化学习框架中，弥合了算法决策和人类参与之间的差距，使我们能够保证人机交互系统的安全性。我们为这种迭代 CVaR RL 提出了可证明的样本效率算法，并提供了严格的理论分析。此外，我们建立了一个匹配的下限，以证实我们的算法在线性环境中的最优性。

怎么一个个都有理论啊…

感觉小领域不是很相关。

Safe RLHF: Safe Reinforcement Learning from Human Feedback

6 8 8 8。然而，在 LLM training 中，有用性和无害性目标之间的权衡是一个重大挑战。提出了基于人类反馈的安全强化学习（Safe RLHF），这是一种用于人类价值对齐的新算法。Safe RLHF 明确地将人类对有用性和无害性的偏好解耦，并允许我们训练单独的奖励和成本模型。

将安全问题 LLMs 形式化为在满足特定成本约束的同时，最大化奖励函数的优化任务。利用拉格朗日方法解决这一约束问题，Safe RLHF 在微调过程中动态调整两个目标之间的平衡。通过使用安全 RLHF 的三轮微调，我们展示了与现有的价值对齐算法相比，在减轻有害响应的同时提高模型性能的卓越能力。通过实验，我们使用 Safe RLHF 对 Alpaca-7B 进行了微调，并将其与收集到的人类偏好保持一致，根据人类评估显着提高了其有用性和无害性。

是 LLM 工作。

Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism

5 5 6。

在本文中，我们重点介绍了用于建模和理解人类选择的，动态离散选择（Dynamic Discrete Choice，DDC）模型。DCC 植根于计量经济学和决策理论，被广泛用于模拟具有前瞻性和有限理性的人类决策过程。我们提出了一种 Dynamic-Choice-Pessimistic-Policy-Optimization（DCPPO）方法。

该方法涉及三阶段的过程：第一步是通过最大似然估计（MLE）估计人类行为策略和状态-动作值函数；第二步通过使用学习到的值函数，最小化贝尔曼均方误差，来恢复人类奖励函数；第三步是插入学习奖励，并调用悲观值迭代，来找到接近最优的策略。在数据集仅采用单策略覆盖率（即最优策略）的情况下，我们证明了 DCPPO 的次最优性在次最优性对分布偏移和维度的依赖性方面，与经典悲观离线 RL 算法相匹配。据我们所知，本文提出了基于动态离散选择模型的非策略离线 RLHF 的第一个理论保证。

Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback

5 6 8。然而，由于缺乏标准化的注释平台和广泛使用的统一基准，通过不同的反馈来量化 RLHF 的进展具有挑战性。为了弥合这一差距，我们推出了 Uni-RLHF，这是为 RLHF 量身定制的综合系统实现。它旨在根据真实的人类反馈提供完整的工作流程，促进实际问题的发展。Uni-RLHF 包含三个软件包：1）通用多反馈标注平台，2）大规模众包反馈数据集，以及 3）模块化离线 RLHF 基线实现。Uni-RLHF 针对各种反馈类型开发了用户友好的标注界面，兼容广泛的主流 RL 环境。然后，我们建立了一个系统的众包注释管道，从而产生了大规模的注释数据集，其中包含 32 个热门任务的 1500 多万个步骤。通过广泛的实验，与精心设计的手动奖励相比，收集的数据集中的结果显示出具有竞争力的表现。我们评估各种设计选择，并深入了解其优势和潜在的改进领域。我们希望建立有价值的开源平台、数据集和基线，以促进基于现实人类反馈的更强大、更可靠的 RLHF 解决方案的开发。该网站可在 https://uni-rlhf.github.io/ 上找到。

原来是代码包和 benchmark（？）开源数据集。

Sequential Preference Ranking for Efficient Reinforcement Learning from Human Feedback

6 6 7 7。然而，现有的 RLHF 模型被认为是低效的，因为它们只从每个人的反馈中产生一个偏好数据。为了解决这个问题，我们提出了一种新的 RLHF 框架 SeqRank，它使用顺序偏好排序来提高反馈效率。我们的方法通过从先前选择的轨迹集合中迭代选择防御者 K，并从未选择的轨迹集合中选择挑战者，以顺序方式采样轨迹 U \ K ，其中 U 是重放缓冲区。

提出了两种具有不同防御者采样策略的轨迹比较方法：（1）选择最近轨迹的顺序成对比较和（2）根成对比较，从 K 中选择最优选的轨迹。
构建了一个数据结构，并根据偏好对轨迹进行排名，以增加额外的查询。

所提出的方法使平均反馈效率比基线至少高出 39.2%，并且还实现了反馈效率和数据依赖性之间的平衡。我们研究了经验风险和奖励模型的泛化边界与 Rademacher 复杂性的收敛性。虽然两种轨迹比较方法都优于传统的成对比较，但根成对比较将运动任务的平均奖励和操作任务的平均成功率分别提高了 29.0% 和 25.0%。

这个 rebuttal 风格像 Pieter Abbeel 组。

利用人类偏好的传递特性，以排序方式标记用户偏好的框架。

Mixing Corrupted Preferences for Robust and Feedback-Efficient Preference-Based Reinforcement Learning

RLHF 通常假设完美的人类注释，人类教师可能会犯错误或对轨迹偏好有相互矛盾的意见。这种损坏的偏好对捕获用户意图的潜在负面影响仍然是一个未被充分探索的挑战。为了应对这一挑战，我们引入了混合损坏首选项（mixing corrupted preferences，MCP），以实现稳健且反馈高效的基于首选项的 RL。Mixup 通过减少错误实例的影响，显示出对损坏标签的鲁棒性。

method：通过两个标记偏好的分量混合来生成新的偏好数据，我们的方法减少了损坏反馈的影响，从而增强了鲁棒性。此外，MCP 提高了反馈效率：即使标记反馈有限，它也可以生成无限的新数据（还有这种好事）。我们在 B-Pref 基准测试中评估了我们在三个运动和六个机器人操作任务上的方法，并将其与 PEBBLE 在完全理性和不完美教师的背景下进行了比较。结果表明，MCP 明显优于 PEBBLE，需要的反馈实例更少，训练时间更短，凸显了其卓越的反馈效率。

5 5 6 没中。

Quality Diversity through Human Feedback

基于人类反馈的强化学习（RLHF）显示出提高定性任务基础模型性能的潜力。仅仅将其概念化为一种机制，来最大化平均人类偏好的学习奖励模型时，它的功效往往会受到限制，特别是在图像生成等需要不同模型响应的领域。同时，致力于寻求多样化、高质量解决方案的质量多样性（QD）算法，通常受到对手动定义的多样性指标的依赖性的限制。

RLHF 和 QD 的这种局限性可以通过混合两者的见解来克服。本文介绍了基于人类反馈的质量多样性（QDHF），它利用人类反馈来推断多样性指标，扩展了量子点算法的适用性。实证结果表明，QDHF 在自动多样性发现方面优于现有的 QD 方法，并且 QD 的搜索能力与人为构建的指标相匹配。值得注意的是，当部署用于潜在空间照明任务时，QDHF 显着增强了扩散模型生成的图像的多样性。该研究最后对 QDHF 的样本效率及其衍生多样性指标的质量进行了深入分析，强调了其在优化复杂、开放式任务方面加强探索和多样性的前景。

神秘小领域（质量多样性 quality diversity）。应该没中。

RIME: Robust Preference-based Reinforcement Learning with Noisy Human Preferences

3 6 8。然而，目前的 PbRL 算法主要关注反馈效率，这在很大程度上依赖于领域专家的高质量反馈。这种过度依赖导致缺乏鲁棒性，导致在噪声反馈条件下性能严重下降，从而限制了 PbRL 的广泛适用性。

在本文中，我们提出了 RIME，这是一种强大的 PbRL 算法，用于从嘈杂的人类偏好中进行有效的奖励学习。我们的方法结合了一个基于样本选择的判别器来动态过滤去噪的偏好，以实现鲁棒训练。为了减轻错误选择导致的累积误差，我们建议热启动奖励模型，以获得良好的初始化，这进一步弥合了 PbRL 中从预训练过渡到在线训练期间的性能差距。我们对机器人操作和运动任务的实验表明，RIME 显着增强了当前最先进的 PbRL 方法的鲁棒性。消融研究进一步表明，在有限反馈情况下，热启动对于稳健性和反馈效率都至关重要。

好奇它的 RIME 去噪算法。

热启动 reward model 以获得良好的初始化，好奇，感兴趣。

Hindsight PRIORs for Reward Learning from Human Preferences

目前的 PbRL 方法没有解决，在确定行为的哪些部分对偏好贡献最大时，固有的信用分配问题，从而导致数据密集型方法和低于标准的奖励模型。我们通过引入信用分配策略（PRIOR）来解决这些局限性，该策略使用前向动力学世界模型来近似轨迹中的状态重要性，然后通过辅助预测回报再分配目标引导奖励与状态重要性成正比。将状态重要性纳入奖励学习可以提高策略学习的速度、整体策略绩效以及运动和操作任务的奖励恢复。例如，与基线相比，PRIOR 以一半的数据量实现了 80% 的成功率。绩效的提高和我们的消融证明了，即使是简单的信用分配策略也，可以对奖励学习产生的好处，并且状态在正向动态预测中的重要性，是状态对偏好决策的贡献的有力代表。

LIRE: Listwise Reward Enhancement for Preference Alignment

然而，RLHF 是出了名的不稳定和对参数的超敏感，这阻碍了一个包罗万象和可持续的LLM系统。提出了一种新的方法：LIRE，它代表 Listwise Reward Enhancement for Preference Alignment，通过列表范式来优化奖励。我们直接将多个候选人的奖励纳入列表损失中，并在一个紧凑而有效的框架中对其进行优化，而无需对 Bradley-Terry model 进行显式建模。此外，我们提出了一种自我增强算法，通过迭代训练逐步优化奖励。大量实验证明了模型性能的稳定性和一致性，而无需大量的超参数调整，同时在偏好对齐任务中，仍然超越了最先进的方法。

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

然而，RLHF 是一个复杂且通常不稳定的过程，首先拟合一个反映人类偏好的奖励模型，然后使用强化学习对大型无监督LM进行微调，以最大化这种估计的奖励，而不会偏离原始模型太远。在本文中，我们利用奖励函数和最优策略之间的映射来证明，这种约束奖励最大化问题可以通过单阶段的策略训练进行精确优化，从而从根本上解决了人类偏好数据的分类问题。由此产生的算法，我们称之为直接偏好优化（DPO），稳定、高性能且计算量轻，无需拟合奖励模型、在微调期间从 LM 采样或执行重要的超参数调优。我们的实验表明，DPO可以微调 LMs 以符合人类的偏好，或者比现有方法更好。值得注意的是，使用 DPO 进行微调超出了 RLHF 控制几代人情绪的能力（？sentiment of generations），并提高了总结和单轮对话的响应质量，同时实施和训练也更加简单。

Direct Preference-based Policy Optimization without Reward Modeling

现有的 PbRL 方法通常涉及两步过程：首先根据给定的偏好数据学习奖励模型，然后使用学习到的奖励模型采用现成的强化学习算法。然而，仅从偏好信息中获得准确的奖励模型可能很困难，尤其是当偏好来自人类教师时。取而代之的是，我们提出了一种 PbRL 算法，该算法直接从偏好中学习，而不需要任何奖励建模。为了实现这一目标，我们采用对比学习（contrastive learning）框架来设计一种新的政策评分指标，该指标为符合给定偏好的政策分配高分。我们将我们的算法应用于具有实际人类偏好标签的离线 RL 任务，并表明我们的算法优于或与现有的 PbRL 方法相当。值得注意的是，在高维控制任务上，我们的算法超越了使用真实奖励信息进行学习的离线强化学习方法。最后，我们证明了我们的算法可以成功地应用于微调大型语言模型。

PARL: A Unified Framework for Policy Alignment in Reinforcement Learning

6 6 8 8 poster。我们提出了一个新颖的基于双层优化的统一框架 PARL，旨在解决。使用基于偏好的反馈进行强化学习中的策略调整。我们发现，由于缺乏对齐目标对政策轨迹产生的数据的依赖性的精确表征，当前解决政策一致性的算法设计中存在重大差距。这种不足导致了在当代算法中观察到的次优性能。我们的框架通过明确参数化上部对齐目标（奖励设计）的分布下部最优变量（设计奖励的最优策略）来解决这些问题。有趣的是，从优化的角度来看，我们的公式导致了一类新的随机双层问题，其中上层目标的随机性取决于下层变量。为了证明我们的公式在解决 RL 中的对齐问题方面的有效性，我们设计了一个名为 A-PARL 的算法来解决 PARL 问题，建立了样本的复杂度顺序 O(1/T) 边界。我们的实证结果证实，所提出的 PARL 可以通过在 Deepmind control suite 和 Metaworld 任务的大规模环境中显示策略对齐的显着改进（在所需样本方面高达 63%）来解决 RL 中的对齐问题。

至少跑的 benchmark 跟我们比较像。

Improving Generalization of Alignment with Human Preferences through Group Invariant Learning

6 6 8 10，spotlight。

基于语言模型的人工智能助手（LLMs）的成功关键取决于基于人类反馈的强化学习（RLHF），它能够生成更符合人类偏好的响应。然而，先前的研究表明，强化学习（RL）经常利用捷径来获得高回报（reward exploitation），而忽略了具有挑战性的样本。这种对快速奖励收益的关注破坏了训练的稳定性和模型泛化到新的、看不见的数据的能力。

在这项工作中，我们提出了一种新的方法，可以通过 RL，在各种数据组或领域中学习一致的策略。

鉴于与获取组注释相关的挑战，我们的方法会自动将数据分类为不同的组，故意最大化性能差异。然后，我们优化策略，使其在具有挑战性的群体中表现良好。最后，利用已建立的组，我们的方法自适应地调整探索空间，将更多的学习能力分配给更具挑战性的数据，并防止模型在更简单的数据上过度优化。实验结果表明，该方法显著提高了训练稳定性和模型泛化性。

Making RL with Preference-based Feedback Efficient via Randomization

5 6 6 8。考虑 RLHF 设置，其中反馈以对轨迹对的偏好格式给出。在线性 MDP 模型中，通过在算法设计中使用随机化，我们提出了一种样本效率高（即具有接近最优的最坏情况后悔边界）并具有多项式运行时间（即计算复杂度相对于相关参数为多项式）的算法。我们的算法通过新颖的随机主动学习程序进一步降低了查询复杂性。特别是，我们的算法展示了后悔边界和查询复杂度之间的近乎最优的权衡。为了将结果扩展到更一般的非线性函数逼近，我们设计了一种基于模型的随机化算法，其灵感来自汤普森采样的思想。我们的算法最小化了贝叶斯遗憾绑定和查询复杂度，再次实现了这两个量之间的近乎最优的权衡。在计算方面，与之前在常规RL设置下的 Thompson 采样算法类似，我们算法的主要计算原语是贝叶斯监督学习预言机，在将 Thompson 采样算法应用于 RL 基准问题时，已经在经验方面进行了大量研究。

……有点神奇，感觉跟 RLHF（PbRL）相关，但核心技术有点神秘。

posted @ 2024-01-21 11:17 MoonOut 阅读(345) 评论(0) 编辑收藏举报

刷新页面返回顶部

月出兮彩云归 🌙