随笔分类 -  🍵 论文阅读

PbRL | B-Pref:生成多样非理性 preference,建立 PbRL benchmark
摘要:贡献:提出一种生成非理性(模拟人类)preference 的方法,使用多样化的 preference,评测 PBRL 各环节算法设计(select informative queries、feedback schedule)的效果。
168
0
0
offline RL | BCQ:学习 offline dataset 的 π(a|s),直接使用 (s, π(s)) 作为 Q learning 训练数据
摘要:① 使用 VAE 建模 offline dataset 的 π(a|s),② 添加一个可以学习的 action 扰动 ξ,③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。
239
0
0
offline RL | IQL:通过 sarsa 式 Q 更新避免 unseen actions
摘要:① 通过 (s,a,r,s',a') 更新 Q function,② 通过 Q 和 V 交替迭代,避免过拟合 s'~p(s'|a) 的随机好 s',误以为 a 是好 action,③ 通过 AWR 从 advantage 提取 policy。
553
0
0
offline RL | TD3+BC:在最大化 Q advantage 时添加 BC loss 的极简算法
摘要:① 在 actor 最大化 Q advantage 时,纳入一个 behavior cloning loss; ② observation 归一化;③ 让 Q advantage 跟 behavior cloning 的 loss 可比。
634
0
0
off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy
摘要:仅仅留下了一些印象,并没有看懂具体算法…… 如果需要重读这篇论文,会 refine 这篇阅读笔记的。
373
0
0
PbRL · offline RL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark
摘要:发现对于很多任务,(只要给出专家轨迹),将 reward 设为 0 或随机数,也能学出很好 policy,证明这些任务不适合用来评测 reward learning 的性能好坏。
476
0
0
PbRL | SURF:使用半监督学习,对 labeled segment pair 进行数据增强
摘要:① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label;② 将 labeled segment pair 进行时序剪裁,得到更多数据增强的 labeled pair。
273
0
1
PbRL | RUNE:鼓励 agent 探索 reward model 更不确定的 (s,a)
摘要:reward model 对某 (s,a) 的不确定性,由一系列 ensemble reward models 的输出结果方差的度量,直接乘一个超参数,作为 intrinsic reward 的一部分。
400
0
3
PbRL | PEBBLE:通过 human preference 学习 reward model
摘要:① 使用熵 intrinsic reward 的 agent pre-training,② 选择尽可能 informative 的 queries 去获取 preference,③ 使用更新后的 reward model 对 replay buffer 进行 relabel。
450
0
0
offline RL | CQL:魔改 Bellman error 更新,得到 Q 函数 lower-bound
摘要:把 OOD 的 Q 函数值拉低,ID 的 Q 函数值拉高,因此倾向于选择原来数据集里有的 ID 的 action。
803
0
3
关于传统迁移学习的一点概念
摘要:感谢学姐的口述讲授 🌹 (学姐貌似很厉害,发了很多 ccf-a)
79
0
0
时空图预测的方法论,以及 diffusion model 基本概念
摘要:时空图预测:构造 0 ~ t-1 的 t 个图,然后把 GNN 操作、时序预测操作一通叠加。diffusion:一种加噪声的训练方法。感谢善良的同学 🙏🏻
269
0
0
传说中 PUE 预测精度高达 0.005 的工作
摘要:① 用 ML 得到 PUE 模型,② 对各个控制变量做灵敏度分析,③ 试图这样减小 PUE:在腾讯改了一个水流量参数,果然获得一点能效提升。
39
0
0
用 Gaussian Process 建模 state-action 空间相关性,加速 Multi-Fidelity RL
摘要:基于 14 年的 MFRL 论文,利用相邻 state-action 的空间相关性来加速学习,用 gaussian processes 建模 env dynamics(model-based)/ Q function(model-free),得到了两种跟 14 年 MFRL 很相似的算法。
124
0
0
打 multi-fidelity RL 旗号,但是幼稚监督学习 + 迁移学习
摘要:RL episode 长度 = 1,先用 PPO 在 low-fidelity env 上学;维护一个 reward 的方差,如果方差足够小,就从 low-fidelity env 迁移到 high-fidelity env。
29
0
0
在有限 computational budget 下,借助 low-fidelity 模型提高精度
摘要:motivation:一些预算用于训 low-fidelity model,剩下预算用于 Monte Carlo 模拟,以得到结果。数学证明:近似 + 递推或迭代或归纳法。总结:目前看来,对我的工作意义不大。
137
0
0
RL 的探索策略 | Exploration for RL
摘要:motivation:鼓励探索。主要方法:给 agent 不熟悉的 state 一个 intrinsic reward。关键问题:如何判断 agent 对某个 state 的熟悉程度。
632
0
0
Multi-Fidelity RL | 多精度 simulator 中的 RL:一篇 14 年 ICRA 的古早论文
摘要:Reinforcement learning with multi-fidelity simulators,是 14 年的 ICRA 会议的论文。师兄说是 robotics 顶会,但中稿率蛮高的。
206
0
1
用线性二次模型建模大型数据中心,基于 MPC 进行冷却控制
摘要:啊…… 感觉它能 work 还是加了很多 tricks 的…
252
0
0
数据中心冷却的 safe-RL,基于对 action 的事后修正技术
摘要:motivation:减少 RL 试错过程中的 unsafe behavior。技术路线:先模仿学习,再在 on-line learning 时强行改可能 unsafe 的 action,即 post-hoc rectification。
95
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起
  1. 1 Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto Jascha Heifetz / Chicago Symphony Orchestra
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto - Jascha Heifetz / Chicago Symphony Orchestra
00:00 / 00:00
An audio error has occurred.