offline RL | HIM:基于 hindsight 的 RL 是一类大 idea
摘要: 将 offline 训练轨迹中,当前时刻之后发生的事 作为 hindsight,从而训练出 想要达到当前 hindsight 的 action。
243
0
0
offline RL | 读读 Decision Transformer
摘要: ① sequence: {s, a, R, s, ...};② 在 s 的 decode 结果上加 MLP 预测 action;③ 给定 return-to-go 作为某种 hindsight。
677
0
2
PID 控制 |(搬运)教程与 python 代码
摘要: Proportional-Integral-Derivative(PID),比例-积分-微分控制。
392
0
0
offline 2 online | Cal-QL:校准保守 offline 训出的 Q value,让它与真实 reward 尺度相当
摘要: ① unlearn:保守 offline RL 训出的 Q function 太小,被 online 的真 reward 量级压制,导致 policy 初始化破坏,性能下降。② 校准:魔改 CQL 惩罚,令 Q_θ ≥ Q_β。
96
0
0
offline 2 online | 重要性采样,把 offline + online 数据化为 on-policy samples
摘要: 在 offline + online buffer 的采样概率,应当与 d^{on}(s,a) / d^{off}(s,a) 成正比(importance sampling)。
266
0
1
凸优化 | 期末复习笔记存档
摘要: 出分后发布笔记……
448
0
0
概率图 | 两次小测的笔记存档
摘要: 出分后发布笔记……
58
0
0
复杂系统 | 20240116 · 考试题目回忆版
摘要: 出分后发布笔记……
48
0
0
复杂系统 | 考前知识点总结(不完全)
摘要: 出分后发布笔记……
58
0
1
offline 2 online | AWAC:基于 AWR 的 policy update + online 补充数据集
摘要: 采用 policy iteration 框架,① policy evaluation 普通更新 Q function,② policy update 使用 AWR 式更新,③ 前两步的采样数据集都是 offline + online。
197
0
1
offline RL | ABM:从 offline dataset 的好 transition 提取 prior policy
摘要: 对于 policy improvement,maximize Q(s, π(s)) ,同时约束 π 与一个 prior policy 的 KL 散度,prior policy 用 advantage 非负的 offline 状态转移计算。
114
0
0
PbRL | 速通 ICLR 2024 RLHF · PbRL
摘要: OpenReview 检索关键词:ICLR 2024、reinforcement learning、preference、human feedback。
419
0
0
Tmux | 常用操作存档
摘要: 因为自己实在是太好忘了💀 所以在博客存档方便查找
25
0
0
“嵌套分区法,是一种良策;将海洋分成块,每块都探测。”
摘要: 为了帮助你更好地理解 Nested Partition 算法,我为你生成了一首诗,用比喻的方式描述了这种算法的过程。希望这对你有所帮助。😊
113
1
0
观后感 | 《黑门》很好看,想安利给全世界
摘要: 如果没有质量更好的第二季,宁愿它就这样停在第一季;已经很好了,已经很完美了。
46
1
0
offline RL | Pessimistic Bootstrapping (PBRL):在 Q 更新中惩罚 uncertainty,拉低 OOD Q value
摘要: critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。
161
0
0
PbRL | QPA:选择 near on-policy query,加速 policy learning 收敛速度
摘要: Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 帮助很小,最终导致 feedback-efficiency 低下。
79
1
0
PbRL | B-Pref:生成多样非理性 preference,建立 PbRL benchmark
摘要: 贡献:提出一种生成非理性(模拟人类)preference 的方法,使用多样化的 preference,评测 PBRL 各环节算法设计(select informative queries、feedback schedule)的效果。
168
0
0
概率图模型 · 蒙特卡洛采样 · MCMC | 非常好的教学视频
摘要: 非常感谢!去写作业了🙏🏻
26
0
0
offline RL | BCQ:学习 offline dataset 的 π(a|s),直接使用 (s, π(s)) 作为 Q learning 训练数据
摘要: ① 使用 VAE 建模 offline dataset 的 π(a|s),② 添加一个可以学习的 action 扰动 ξ,③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。
239
0
0
RL 基础 | 讲的很好的 TRPO 博客
摘要: 一篇知乎 TRPO 博客,感觉 idea 讲的很清楚,特来搬运。
37
0
0
offline RL | IQL:通过 sarsa 式 Q 更新避免 unseen actions
摘要: ① 通过 (s,a,r,s',a') 更新 Q function,② 通过 Q 和 V 交替迭代,避免过拟合 s'~p(s'|a) 的随机好 s',误以为 a 是好 action,③ 通过 AWR 从 advantage 提取 policy。
553
0
0
offline RL | TD3+BC:在最大化 Q advantage 时添加 BC loss 的极简算法
摘要: ① 在 actor 最大化 Q advantage 时,纳入一个 behavior cloning loss; ② observation 归一化;③ 让 Q advantage 跟 behavior cloning 的 loss 可比。
634
0
0
概率图 · 概率论基础 | 讲的非常好的 KL 散度博客
摘要: 感觉讲的非常好,谢谢善良的博主 😊🙏🏻
21
0
0
off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy
摘要: 仅仅留下了一些印象,并没有看懂具体算法…… 如果需要重读这篇论文,会 refine 这篇阅读笔记的。
373
0
0
PbRL · offline RL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark
摘要: 发现对于很多任务,(只要给出专家轨迹),将 reward 设为 0 或随机数,也能学出很好 policy,证明这些任务不适合用来评测 reward learning 的性能好坏。
476
0
0
PbRL | SURF:使用半监督学习,对 labeled segment pair 进行数据增强
摘要: ① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label;② 将 labeled segment pair 进行时序剪裁,得到更多数据增强的 labeled pair。
273
0
1
线性代数 · 矩阵 · Matlab | Moore-Penrose 伪逆矩阵代码实现
摘要: 写伪逆矩阵计算代码,是专业课作业 2333,挑了两个好实现的算法写一下。
508
0
0
PbRL | RUNE:鼓励 agent 探索 reward model 更不确定的 (s,a)
摘要: reward model 对某 (s,a) 的不确定性,由一系列 ensemble reward models 的输出结果方差的度量,直接乘一个超参数,作为 intrinsic reward 的一部分。
400
0
3
PbRL | PEBBLE:通过 human preference 学习 reward model
摘要: ① 使用熵 intrinsic reward 的 agent pre-training,② 选择尽可能 informative 的 queries 去获取 preference,③ 使用更新后的 reward model 对 replay buffer 进行 relabel。
450
0
0
offline RL | CQL:魔改 Bellman error 更新,得到 Q 函数 lower-bound
摘要: 把 OOD 的 Q 函数值拉低,ID 的 Q 函数值拉高,因此倾向于选择原来数据集里有的 ID 的 action。
803
0
3
凸优化 | Lagrange 对偶:极大极小不等式的证明
摘要: sup inf ≤ inf sup,证明关键: inf_w f(w,z) 是 f(w0,z) 逐点下界,对于任意 w0。
229
1
0
线性代数 · 矩阵 · Matlab | 满秩分解代码实现
摘要: 满秩分解的计算方法,居然意外的简单。
386
0
0
RL 基础 | Policy Iteration 的收敛性证明
摘要: 1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。
317
3
0
线性代数 · 矩阵 · Matlab | Cholesky 分解代码实现
摘要: Cholesky 分解是 LU 分解(三角分解)的特殊形式,n 阶实对称正定矩阵 A = LL^T,其中 L 为下三角;搬运外网的代码,非原创。
379
0
0
RL 基础 | Value Iteration 的收敛性证明
摘要: 贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。
720
0
0
python · ssh · SQL | python 连接远程 SQL 数据库
摘要: 代码存档:先写一个 python 的 ssh 连接,再在 ssh 连接里面连 SQL。
155
0
0
Markdown · Typora | 基本画图技巧
摘要: 在 typora 中使用 mermaid,实现简单的 markdown 画图。
409
0
0
关于传统迁移学习的一点概念
摘要: 感谢学姐的口述讲授 🌹 (学姐貌似很厉害,发了很多 ccf-a)
79
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起
  1. 1 Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto Jascha Heifetz / Chicago Symphony Orchestra
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto - Jascha Heifetz / Chicago Symphony Orchestra
00:00 / 00:00
An audio error has occurred.