🍵 论文阅读 - 随笔分类(第2页) - MoonOut

PbRL | B-Pref：生成多样非理性 preference，建立 PbRL benchmark

摘要：贡献：提出一种生成非理性（模拟人类）preference 的方法，使用多样化的 preference，评测 PBRL 各环节算法设计（select informative queries、feedback schedule）的效果。

168

0

offline RL | BCQ：学习 offline dataset 的 π(a|s)，直接使用 (s, π(s)) 作为 Q learning 训练数据

摘要：① 使用 VAE 建模 offline dataset 的 π(a|s)，② 添加一个可以学习的 action 扰动 ξ，③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。

239

0

offline RL | IQL：通过 sarsa 式 Q 更新避免 unseen actions

摘要：① 通过 (s,a,r,s',a') 更新 Q function，② 通过 Q 和 V 交替迭代，避免过拟合 s'~p(s'|a) 的随机好 s'，误以为 a 是好 action，③ 通过 AWR 从 advantage 提取 policy。

553

0

offline RL | TD3+BC：在最大化 Q advantage 时添加 BC loss 的极简算法

摘要：① 在 actor 最大化 Q advantage 时，纳入一个 behavior cloning loss； ② observation 归一化；③ 让 Q advantage 跟 behavior cloning 的 loss 可比。

634

0

off-policy RL | Advantage-Weighted Regression (AWR)：组合先前策略得到新 base policy

摘要：仅仅留下了一些印象，并没有看懂具体算法…… 如果需要重读这篇论文，会 refine 这篇阅读笔记的。

373

0

PbRL · offline RL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark

摘要：发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。

476

0

PbRL | SURF：使用半监督学习，对 labeled segment pair 进行数据增强

摘要：① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label；② 将 labeled segment pair 进行时序剪裁，得到更多数据增强的 labeled pair。

273

0

1

PbRL | RUNE：鼓励 agent 探索 reward model 更不确定的 (s,a)

摘要：reward model 对某 (s,a) 的不确定性，由一系列 ensemble reward models 的输出结果方差的度量，直接乘一个超参数，作为 intrinsic reward 的一部分。

400

0

3

PbRL | PEBBLE：通过 human preference 学习 reward model

摘要：① 使用熵 intrinsic reward 的 agent pre-training，② 选择尽可能 informative 的 queries 去获取 preference，③ 使用更新后的 reward model 对 replay buffer 进行 relabel。

450

0

offline RL | CQL：魔改 Bellman error 更新，得到 Q 函数 lower-bound

摘要：把 OOD 的 Q 函数值拉低，ID 的 Q 函数值拉高，因此倾向于选择原来数据集里有的 ID 的 action。

803

0

3

关于传统迁移学习的一点概念

摘要：感谢学姐的口述讲授 🌹 （学姐貌似很厉害，发了很多 ccf-a）

79

0

时空图预测的方法论，以及 diffusion model 基本概念

摘要：时空图预测：构造 0 ~ t-1 的 t 个图，然后把 GNN 操作、时序预测操作一通叠加。diffusion：一种加噪声的训练方法。感谢善良的同学 🙏🏻

269

0

传说中 PUE 预测精度高达 0.005 的工作

摘要：① 用 ML 得到 PUE 模型，② 对各个控制变量做灵敏度分析，③ 试图这样减小 PUE：在腾讯改了一个水流量参数，果然获得一点能效提升。

39

0

用 Gaussian Process 建模 state-action 空间相关性，加速 Multi-Fidelity RL

摘要：基于 14 年的 MFRL 论文，利用相邻 state-action 的空间相关性来加速学习，用 gaussian processes 建模 env dynamics（model-based）/ Q function（model-free），得到了两种跟 14 年 MFRL 很相似的算法。

124

0

打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习

摘要：RL episode 长度 = 1，先用 PPO 在 low-fidelity env 上学；维护一个 reward 的方差，如果方差足够小，就从 low-fidelity env 迁移到 high-fidelity env。

29

0

在有限 computational budget 下，借助 low-fidelity 模型提高精度

摘要：motivation：一些预算用于训 low-fidelity model，剩下预算用于 Monte Carlo 模拟，以得到结果。数学证明：近似 + 递推或迭代或归纳法。总结：目前看来，对我的工作意义不大。

137

0

RL 的探索策略 | Exploration for RL

摘要：motivation：鼓励探索。主要方法：给 agent 不熟悉的 state 一个 intrinsic reward。关键问题：如何判断 agent 对某个 state 的熟悉程度。

632

0

Multi-Fidelity RL | 多精度 simulator 中的 RL：一篇 14 年 ICRA 的古早论文

摘要：Reinforcement learning with multi-fidelity simulators，是 14 年的 ICRA 会议的论文。师兄说是 robotics 顶会，但中稿率蛮高的。

206

0

1

用线性二次模型建模大型数据中心，基于 MPC 进行冷却控制

摘要：啊…… 感觉它能 work 还是加了很多 tricks 的…

252

0

数据中心冷却的 safe-RL，基于对 action 的事后修正技术

摘要：motivation：减少 RL 试错过程中的 unsafe behavior。技术路线：先模仿学习，再在 on-line learning 时强行改可能 unsafe 的 action，即 post-hoc rectification。

95

0

月出兮彩云归 🌙

随笔分类 - 🍵 论文阅读

公告

我的标签

随笔分类 (208)

阅读排行榜