随笔分类 - 🍵 论文阅读
offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
摘要:LiRE 的主要贡献(故事):1. 构造 A>B>C 的 RLT,利用二阶偏好信息;2. 使用线性 reward model,提升 PbRL 性能。
Contrastive Learning 对比学习 | RL 学 representation 时的对比学习
摘要:在 RL 的 representation learning 中,应用对比学习思想和 InfoNCE loss。
PbRL | Christiano 2017 年的开山之作,以及 Preference PPO / PrefPPO
摘要:Deep reinforcement learning from human preferences 论文阅读,以及 PrefPPO 算法阅读。
PbRL | RIME:用交叉熵 loss 大小分辨 preference 是否正确 + 内在奖励预训练 reward model
摘要:① 假设正确样本的 CELoss 上限是 ρ,可推出错误样本相对 P_ψ(x) 分布的 KL 散度上限,从而筛出可信样本、翻转不可信样本;② 用归一化到 (-1,1) 的 intrinsic reward 预训练 reward model。
关于 KL 散度和变分推断的 ELBO
摘要:ELBO 用于最小化 q(z|s) 和 p(z|s) 的 KL 散度,变成最大化 p(x|z) 的 log likelihood + 最小化 q(z|s) 和先验 p(z) 的 KL 散度。
offline RL | D4RL:最常用的 offline 数据集之一
摘要:① medium:中等策略。② random:随机策略。③ medium-replay:训到中等策略的整个 replay buffer。④ medium-expert:等量混合专家数据和次优数据(次优或随机策略)。
Contrastive Learning 对比学习 | 何恺明大神的 SimSiam
摘要:主要 trick:① 更新 A 时把 B stop-gradient,② 在 encoder 后添加神秘的 MLP 层。
offline RL · PbRL | Preference Transformer:反正感觉 transformer 很强大
摘要:① 定义 non-Markovian reward 的输入是 trajectory,② 使用 exp Σ w(τ) · r(τ) 的 preference 形式。
贴个不知真假的 representation learning for RL 综述
摘要:Act as a reinforcement learning expert. Please do a review for representation learning in RL. Should focus on how to map a trajectory to a latent.
offline RL · PbRL | OPPO:PbRL 场景的 offline hindsight transformer
摘要:将 offline HIM 应用到 PbRL,① 用离线轨迹训练 a=π(s,z) ,② 训练最优 hindsight z* 靠近 z+ 远离 z-。
offline RL | HIM:基于 hindsight 的 RL 是一类大 idea
摘要:将 offline 训练轨迹中,当前时刻之后发生的事 作为 hindsight,从而训练出 想要达到当前 hindsight 的 action。
offline RL | 读读 Decision Transformer
摘要:① sequence: {s, a, R, s, ...};② 在 s 的 decode 结果上加 MLP 预测 action;③ 给定 return-to-go 作为某种 hindsight。
offline 2 online | Cal-QL:校准保守 offline 训出的 Q value,让它与真实 reward 尺度相当
摘要:① unlearn:保守 offline RL 训出的 Q function 太小,被 online 的真 reward 量级压制,导致 policy 初始化破坏,性能下降。② 校准:魔改 CQL 惩罚,令 Q_θ ≥ Q_β。
offline 2 online | 重要性采样,把 offline + online 数据化为 on-policy samples
摘要:在 offline + online buffer 的采样概率,应当与 d^{on}(s,a) / d^{off}(s,a) 成正比(importance sampling)。
offline 2 online | AWAC:基于 AWR 的 policy update + online 补充数据集
摘要:采用 policy iteration 框架,① policy evaluation 普通更新 Q function,② policy update 使用 AWR 式更新,③ 前两步的采样数据集都是 offline + online。
offline RL | ABM:从 offline dataset 的好 transition 提取 prior policy
摘要:对于 policy improvement,maximize Q(s, π(s)) ,同时约束 π 与一个 prior policy 的 KL 散度,prior policy 用 advantage 非负的 offline 状态转移计算。
PbRL | 速通 ICLR 2024 RLHF · PbRL
摘要:OpenReview 检索关键词:ICLR 2024、reinforcement learning、preference、human feedback。
offline RL | Pessimistic Bootstrapping (PBRL):在 Q 更新中惩罚 uncertainty,拉低 OOD Q value
摘要:critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。
PbRL | QPA:选择 near on-policy query,加速 policy learning 收敛速度
摘要:Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 帮助很小,最终导致 feedback-efficiency 低下。