offline RL | HIM:基于 hindsight 的 RL 是一类大 idea
摘要:
将 offline 训练轨迹中,当前时刻之后发生的事 作为 hindsight,从而训练出 想要达到当前 hindsight 的 action。
offline RL | 读读 Decision Transformer
摘要:
① sequence: {s, a, R, s, ...};② 在 s 的 decode 结果上加 MLP 预测 action;③ 给定 return-to-go 作为某种 hindsight。
offline 2 online | Cal-QL:校准保守 offline 训出的 Q value,让它与真实 reward 尺度相当
摘要:
① unlearn:保守 offline RL 训出的 Q function 太小,被 online 的真 reward 量级压制,导致 policy 初始化破坏,性能下降。② 校准:魔改 CQL 惩罚,令 Q_θ ≥ Q_β。
offline 2 online | 重要性采样,把 offline + online 数据化为 on-policy samples
摘要:
在 offline + online buffer 的采样概率,应当与 d^{on}(s,a) / d^{off}(s,a) 成正比(importance sampling)。
offline 2 online | AWAC:基于 AWR 的 policy update + online 补充数据集
摘要:
采用 policy iteration 框架,① policy evaluation 普通更新 Q function,② policy update 使用 AWR 式更新,③ 前两步的采样数据集都是 offline + online。
offline RL | ABM:从 offline dataset 的好 transition 提取 prior policy
摘要:
对于 policy improvement,maximize Q(s, π(s)) ,同时约束 π 与一个 prior policy 的 KL 散度,prior policy 用 advantage 非负的 offline 状态转移计算。
PbRL | 速通 ICLR 2024 RLHF · PbRL
摘要:
OpenReview 检索关键词:ICLR 2024、reinforcement learning、preference、human feedback。
“嵌套分区法,是一种良策;将海洋分成块,每块都探测。”
摘要:
为了帮助你更好地理解 Nested Partition 算法,我为你生成了一首诗,用比喻的方式描述了这种算法的过程。希望这对你有所帮助。😊
offline RL | Pessimistic Bootstrapping (PBRL):在 Q 更新中惩罚 uncertainty,拉低 OOD Q value
摘要:
critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。
PbRL | QPA:选择 near on-policy query,加速 policy learning 收敛速度
摘要:
Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 帮助很小,最终导致 feedback-efficiency 低下。
PbRL | B-Pref:生成多样非理性 preference,建立 PbRL benchmark
摘要:
贡献:提出一种生成非理性(模拟人类)preference 的方法,使用多样化的 preference,评测 PBRL 各环节算法设计(select informative queries、feedback schedule)的效果。
offline RL | BCQ:学习 offline dataset 的 π(a|s),直接使用 (s, π(s)) 作为 Q learning 训练数据
摘要:
① 使用 VAE 建模 offline dataset 的 π(a|s),② 添加一个可以学习的 action 扰动 ξ,③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。
offline RL | IQL:通过 sarsa 式 Q 更新避免 unseen actions
摘要:
① 通过 (s,a,r,s',a') 更新 Q function,② 通过 Q 和 V 交替迭代,避免过拟合 s'~p(s'|a) 的随机好 s',误以为 a 是好 action,③ 通过 AWR 从 advantage 提取 policy。
offline RL | TD3+BC:在最大化 Q advantage 时添加 BC loss 的极简算法
摘要:
① 在 actor 最大化 Q advantage 时,纳入一个 behavior cloning loss; ② observation 归一化;③ 让 Q advantage 跟 behavior cloning 的 loss 可比。
off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy
摘要:
仅仅留下了一些印象,并没有看懂具体算法…… 如果需要重读这篇论文,会 refine 这篇阅读笔记的。
PbRL · offline RL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark
摘要:
发现对于很多任务,(只要给出专家轨迹),将 reward 设为 0 或随机数,也能学出很好 policy,证明这些任务不适合用来评测 reward learning 的性能好坏。
PbRL | SURF:使用半监督学习,对 labeled segment pair 进行数据增强
摘要:
① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label;② 将 labeled segment pair 进行时序剪裁,得到更多数据增强的 labeled pair。
PbRL | RUNE:鼓励 agent 探索 reward model 更不确定的 (s,a)
摘要:
reward model 对某 (s,a) 的不确定性,由一系列 ensemble reward models 的输出结果方差的度量,直接乘一个超参数,作为 intrinsic reward 的一部分。
PbRL | PEBBLE:通过 human preference 学习 reward model
摘要:
① 使用熵 intrinsic reward 的 agent pre-training,② 选择尽可能 informative 的 queries 去获取 preference,③ 使用更新后的 reward model 对 replay buffer 进行 relabel。
offline RL | CQL:魔改 Bellman error 更新,得到 Q 函数 lower-bound
摘要:
把 OOD 的 Q 函数值拉低,ID 的 Q 函数值拉高,因此倾向于选择原来数据集里有的 ID 的 action。
凸优化 | Lagrange 对偶:极大极小不等式的证明
摘要:
sup inf ≤ inf sup,证明关键: inf_w f(w,z) 是 f(w0,z) 逐点下界,对于任意 w0。
RL 基础 | Policy Iteration 的收敛性证明
摘要:
1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。
线性代数 · 矩阵 · Matlab | Cholesky 分解代码实现
摘要:
Cholesky 分解是 LU 分解(三角分解)的特殊形式,n 阶实对称正定矩阵 A = LL^T,其中 L 为下三角;搬运外网的代码,非原创。
RL 基础 | Value Iteration 的收敛性证明
摘要:
贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。