MoonOut - 博客园

2024年2月5日

offline 2 online | AWAC：基于 AWR 的 policy update + online 补充数据集

摘要：采用 policy iteration 框架，① policy evaluation 普通更新 Q function，② policy update 使用 AWR 式更新，③ 前两步的采样数据集都是 offline + online。阅读全文

posted @ 2024-02-05 21:50 MoonOut 阅读(164) 评论(0) 推荐(1) 编辑

2024年1月21日

offline RL | ABM：从 offline dataset 的好 transition 提取 prior policy

摘要：对于 policy improvement，maximize Q(s, π(s)) ，同时约束 π 与一个 prior policy 的 KL 散度，prior policy 用 advantage 非负的 offline 状态转移计算。阅读全文

posted @ 2024-01-21 11:26 MoonOut 阅读(99) 评论(0) 推荐(0) 编辑

PbRL | 速通 ICLR 2024 RLHF · PbRL

摘要： OpenReview 检索关键词：ICLR 2024、reinforcement learning、preference、human feedback。阅读全文

posted @ 2024-01-21 11:17 MoonOut 阅读(344) 评论(0) 推荐(0) 编辑

2024年1月18日

Tmux | 常用操作存档

摘要：因为自己实在是太好忘了💀 所以在博客存档方便查找阅读全文

posted @ 2024-01-18 19:47 MoonOut 阅读(22) 评论(0) 推荐(0) 编辑

2024年1月13日

“嵌套分区法，是一种良策；将海洋分成块，每块都探测。”

摘要：为了帮助你更好地理解 Nested Partition 算法，我为你生成了一首诗，用比喻的方式描述了这种算法的过程。希望这对你有所帮助。😊 阅读全文

posted @ 2024-01-13 11:06 MoonOut 阅读(85) 评论(1) 推荐(0) 编辑

2023年12月17日

观后感 | 《黑门》很好看，想安利给全世界

摘要：如果没有质量更好的第二季，宁愿它就这样停在第一季；已经很好了，已经很完美了。阅读全文

posted @ 2023-12-17 16:15 MoonOut 阅读(34) 评论(1) 推荐(0) 编辑

offline RL | Pessimistic Bootstrapping (PBRL)：在 Q 更新中惩罚 uncertainty，拉低 OOD Q value

摘要： critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error，① 对所转移去的 (s',a') 的 uncertainty 进行惩罚，② 对 (s, a_ood) 的 uncertainty 进行惩罚。阅读全文

posted @ 2023-12-17 15:37 MoonOut 阅读(133) 评论(0) 推荐(0) 编辑

PbRL | QPA：选择 near on-policy query，加速 policy learning 收敛速度

摘要： Query-Policy Misalignment：选择的看似 informative 的 query，实际上可能与 RL agent 的兴趣不一致，因此对 policy learning 帮助很小，最终导致 feedback-efficiency 低下。阅读全文

posted @ 2023-12-17 15:28 MoonOut 阅读(67) 评论(1) 推荐(0) 编辑

2023年11月30日

PbRL | B-Pref：生成多样非理性 preference，建立 PbRL benchmark

摘要：贡献：提出一种生成非理性（模拟人类）preference 的方法，使用多样化的 preference，评测 PBRL 各环节算法设计（select informative queries、feedback schedule）的效果。阅读全文

posted @ 2023-11-30 21:21 MoonOut 阅读(142) 评论(0) 推荐(0) 编辑

2023年11月28日

概率图模型 · 蒙特卡洛采样 · MCMC | 非常好的教学视频

摘要：非常感谢！去写作业了🙏🏻 阅读全文

posted @ 2023-11-28 15:34 MoonOut 阅读(23) 评论(0) 推荐(0) 编辑

2023年11月27日

offline RL | BCQ：学习 offline dataset 的 π(a|s)，直接使用 (s, π(s)) 作为 Q learning 训练数据

摘要： ① 使用 VAE 建模 offline dataset 的 π(a|s)，② 添加一个可以学习的 action 扰动 ξ，③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。阅读全文

posted @ 2023-11-27 21:29 MoonOut 阅读(220) 评论(0) 推荐(0) 编辑

RL 基础 | 讲的很好的 TRPO 博客

摘要：一篇知乎 TRPO 博客，感觉 idea 讲的很清楚，特来搬运。阅读全文

posted @ 2023-11-27 15:47 MoonOut 阅读(31) 评论(0) 推荐(0) 编辑

2023年11月25日

offline RL | IQL：通过 sarsa 式 Q 更新避免 unseen actions

摘要： ① 通过 (s,a,r,s',a') 更新 Q function，② 通过 Q 和 V 交替迭代，避免过拟合 s'~p(s'|a) 的随机好 s'，误以为 a 是好 action，③ 通过 AWR 从 advantage 提取 policy。阅读全文

posted @ 2023-11-25 20:12 MoonOut 阅读(493) 评论(0) 推荐(0) 编辑

2023年11月19日

offline RL | TD3+BC：在最大化 Q advantage 时添加 BC loss 的极简算法

摘要： ① 在 actor 最大化 Q advantage 时，纳入一个 behavior cloning loss； ② observation 归一化；③ 让 Q advantage 跟 behavior cloning 的 loss 可比。阅读全文

posted @ 2023-11-19 17:02 MoonOut 阅读(562) 评论(0) 推荐(0) 编辑

2023年11月16日

概率图 · 概率论基础 | 讲的非常好的 KL 散度博客

摘要：感觉讲的非常好，谢谢善良的博主 😊🙏🏻 阅读全文

posted @ 2023-11-16 16:36 MoonOut 阅读(21) 评论(0) 推荐(0) 编辑

2023年11月13日

off-policy RL | Advantage-Weighted Regression (AWR)：组合先前策略得到新 base policy

摘要：仅仅留下了一些印象，并没有看懂具体算法…… 如果需要重读这篇论文，会 refine 这篇阅读笔记的。阅读全文

posted @ 2023-11-13 20:40 MoonOut 阅读(309) 评论(0) 推荐(0) 编辑

PbRL · offline RL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark

摘要：发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。阅读全文

posted @ 2023-11-13 18:11 MoonOut 阅读(436) 评论(0) 推荐(0) 编辑

2023年11月11日

PbRL | SURF：使用半监督学习，对 labeled segment pair 进行数据增强

摘要： ① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label；② 将 labeled segment pair 进行时序剪裁，得到更多数据增强的 labeled pair。阅读全文

posted @ 2023-11-11 20:16 MoonOut 阅读(249) 评论(0) 推荐(1) 编辑

线性代数 · 矩阵 · Matlab | Moore-Penrose 伪逆矩阵代码实现

摘要：写伪逆矩阵计算代码，是专业课作业 2333，挑了两个好实现的算法写一下。阅读全文

posted @ 2023-11-11 12:01 MoonOut 阅读(409) 评论(0) 推荐(0) 编辑

2023年11月10日

PbRL | RUNE：鼓励 agent 探索 reward model 更不确定的 (s,a)

摘要： reward model 对某 (s,a) 的不确定性，由一系列 ensemble reward models 的输出结果方差的度量，直接乘一个超参数，作为 intrinsic reward 的一部分。阅读全文

posted @ 2023-11-10 17:43 MoonOut 阅读(361) 评论(0) 推荐(3) 编辑

2023年11月9日

PbRL | PEBBLE：通过 human preference 学习 reward model

摘要： ① 使用熵 intrinsic reward 的 agent pre-training，② 选择尽可能 informative 的 queries 去获取 preference，③ 使用更新后的 reward model 对 replay buffer 进行 relabel。阅读全文

posted @ 2023-11-09 20:40 MoonOut 阅读(398) 评论(0) 推荐(0) 编辑

2023年11月7日

offline RL | CQL：魔改 Bellman error 更新，得到 Q 函数 lower-bound

摘要：把 OOD 的 Q 函数值拉低，ID 的 Q 函数值拉高，因此倾向于选择原来数据集里有的 ID 的 action。阅读全文

posted @ 2023-11-07 15:12 MoonOut 阅读(707) 评论(0) 推荐(2) 编辑

凸优化 | Lagrange 对偶：极大极小不等式的证明

摘要： sup inf ≤ inf sup，证明关键： inf_w f(w,z) 是 f(w0,z) 逐点下界，对于任意 w0。阅读全文

posted @ 2023-11-07 10:51 MoonOut 阅读(199) 评论(1) 推荐(0) 编辑

2023年11月4日

线性代数 · 矩阵 · Matlab | 满秩分解代码实现

摘要：满秩分解的计算方法，居然意外的简单。阅读全文

posted @ 2023-11-04 17:07 MoonOut 阅读(346) 评论(0) 推荐(0) 编辑

2023年11月2日

RL 基础 | Policy Iteration 的收敛性证明

摘要： 1. Policy Evaluation 会收敛，因为贝尔曼算子是压缩映射；2. Policy Improvement 有策略性能改进的保证。阅读全文

posted @ 2023-11-02 10:44 MoonOut 阅读(263) 评论(3) 推荐(0) 编辑

2023年11月1日

线性代数 · 矩阵 · Matlab | Cholesky 分解代码实现

摘要： Cholesky 分解是 LU 分解（三角分解）的特殊形式，n 阶实对称正定矩阵 A = LL^T，其中 L 为下三角；搬运外网的代码，非原创。阅读全文

posted @ 2023-11-01 14:23 MoonOut 阅读(342) 评论(0) 推荐(0) 编辑

2023年10月24日

RL 基础 | Value Iteration 的收敛性证明

摘要：贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射，因此 {V, BV, B²V, ...} 是柯西序列，会收敛到 V=BV 的不动点。阅读全文

posted @ 2023-10-24 09:40 MoonOut 阅读(626) 评论(0) 推荐(0) 编辑

2023年10月7日

python · ssh · SQL | python 连接远程 SQL 数据库

摘要：代码存档：先写一个 python 的 ssh 连接，再在 ssh 连接里面连 SQL。阅读全文

posted @ 2023-10-07 21:03 MoonOut 阅读(145) 评论(0) 推荐(0) 编辑

Markdown · Typora | 基本画图技巧

摘要：在 typora 中使用 mermaid，实现简单的 markdown 画图。阅读全文

posted @ 2023-10-07 20:53 MoonOut 阅读(377) 评论(0) 推荐(0) 编辑

2023年9月7日

关于传统迁移学习的一点概念

摘要：感谢学姐的口述讲授 🌹 （学姐貌似很厉害，发了很多 ccf-a）阅读全文

posted @ 2023-09-07 21:10 MoonOut 阅读(75) 评论(0) 推荐(0) 编辑

2023年8月22日

python · SQL | MySQL 配置与 python 连接数据库

摘要： MySQL 配置 + python 连接 SQL 的简洁教程（以及 SQL server 貌似不太好用）阅读全文

posted @ 2023-08-22 18:41 MoonOut 阅读(49) 评论(0) 推荐(0) 编辑

2023年8月13日

TOEFL | 202307 改革 · 新版题型总结

摘要： 20230726 改革托福题型后，题目更少、考试更轻松了，但容错率也随之降低… 阅读全文

posted @ 2023-08-13 15:07 MoonOut 阅读(168) 评论(0) 推荐(0) 编辑

2023年7月31日

TOEFL | Reading · 题型总结

摘要： 1. 先判断题型，2. 跳过读题干 or 细读题干。如果细读题干，请务必认真读题干！阅读全文

posted @ 2023-07-31 12:08 MoonOut 阅读(29) 评论(0) 推荐(0) 编辑

2023年6月24日

大二上 | 一些四六级护身符的存档

摘要：当时背了好几篇范文，写作文时把这些 fancy 句子一通缝合，果然可以得高分🤣 阅读全文

posted @ 2023-06-24 12:12 MoonOut 阅读(28) 评论(0) 推荐(0) 编辑

2023年6月16日

LaTex · overleaf | 使用技巧存档

摘要：零零散散的经验，存下来方便查阅。阅读全文

posted @ 2023-06-16 10:10 MoonOut 阅读(254) 评论(1) 推荐(0) 编辑

2023年6月10日

杂谈 | 十二井穴缓解新冠症状

摘要：还是很信服中医的，所以来存个档。阅读全文

posted @ 2023-06-10 21:03 MoonOut 阅读(81) 评论(0) 推荐(0) 编辑

时空图预测的方法论，以及 diffusion model 基本概念

摘要：时空图预测：构造 0 ~ t-1 的 t 个图，然后把 GNN 操作、时序预测操作一通叠加。diffusion：一种加噪声的训练方法。感谢善良的同学 🙏🏻 阅读全文

posted @ 2023-06-10 20:55 MoonOut 阅读(259) 评论(0) 推荐(0) 编辑

命题文案 | kwdnx、谷雨、更漏与我

摘要：在 2019 年某个微雪的冬日，在我们彼此相聚的稀少时光里，在雪花轻缓而静寂的飘落下：时间的流逝，能否再慢一点呢？阅读全文

posted @ 2023-06-10 19:52 MoonOut 阅读(39) 评论(0) 推荐(0) 编辑

传说中 PUE 预测精度高达 0.005 的工作

摘要： ① 用 ML 得到 PUE 模型，② 对各个控制变量做灵敏度分析，③ 试图这样减小 PUE：在腾讯改了一个水流量参数，果然获得一点能效提升。阅读全文

posted @ 2023-06-10 19:38 MoonOut 阅读(31) 评论(0) 推荐(0) 编辑

大二上 | 计算机组成原理 · 小测试卷

摘要：趁老师不注意，把试卷拍了照…… 阅读全文

posted @ 2023-06-10 19:23 MoonOut 阅读(41) 评论(0) 推荐(0) 编辑

月出兮彩云归 🌙

公告