🍵 论文阅读 - 随笔分类 - MoonOut

LLM | 常用的数学数据集：MATH、GSM8K、AIME24 等

摘要：提供了 MATH、GSM8K、AIME24 等常用数学数据集的基本信息和链接。阅读全文

posted @ 2026-02-13 13:13 MoonOut 阅读(145) 评论(0) 推荐(0)

LLM | REINFORCE++：好像是近期的 LLM RL 新方法

摘要：REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”，并搭配稳定的 KL 估计方式，比 PPO 轻量级，比 GRPO 稳定和泛化性强。阅读全文

posted @ 2026-02-13 11:51 MoonOut 阅读(26) 评论(0) 推荐(0)

基于梯度组合的多任务 / 多目标学习

摘要：面对多任务 / 多目标学习中，可能相互冲突的梯度信号，现有方法通过加权、投影、统一符号等方法，调合这些梯度信号。阅读全文

posted @ 2026-01-10 17:17 MoonOut 阅读(730) 评论(0) 推荐(1)

LLM | ARC-AGI：有趣的 benchmark

摘要：ARC-AGI benchmark 提供了基于视觉网格的谜题，它们是“对于人类简单、对于大模型困难”的问题。阅读全文

posted @ 2026-01-07 19:57 MoonOut 阅读(549) 评论(0) 推荐(2)

LLM | multi-turn 任务下的 RL 微调：RAGEN, ArCHer, GiGPO, VinePPO

摘要：最近读了一些在多轮（multi-turn）任务上用 RL 微调 LLM 的文章，记录阅读笔记。阅读全文

posted @ 2026-01-03 16:54 MoonOut 阅读(77) 评论(0) 推荐(0)

PbRL | 近两年论文阅读的不完全总结

摘要：存档，博士生资格考试的 20 篇文献。阅读全文

posted @ 2025-11-29 15:04 MoonOut 阅读(1100) 评论(0) 推荐(2)

MORL | Envelope Q-Learning：有收敛性保证的 MORL 算法

摘要：EQL 将单目标的 bellman 算子拓展到多目标 RL 上，并复刻了 value iteration 的收敛性保证。阅读全文

posted @ 2025-11-22 21:18 MoonOut 阅读(898) 评论(0) 推荐(1)

数据中心 + 事件驱动优化：面向数据中心绿色可靠运行的强化学习方法

摘要：贾庆山老师团队的事件驱动优化 + 数据中心工作。阅读全文

posted @ 2025-11-22 16:10 MoonOut 阅读(23) 评论(0) 推荐(0)

Skill Discovery | RGSD：基于高质量参考轨迹，预训练 skill space

摘要：① 用对比学习把参考轨迹的 embedding 尽可能拉远，② 使用 DIAYN reward 同时做模仿学习和 skill discovery。阅读全文

posted @ 2025-10-31 00:50 MoonOut 阅读(115) 评论(0) 推荐(1)

Skill Discovery | METRA：让策略探索 state 的紧凑 embedding space

摘要：为 state space 训练一个紧凑的 embedding space，使得 embedding 间的距离与 temporal distance 相匹配，然后让 policy 尽可能覆盖 embedding space。阅读全文

posted @ 2025-07-18 23:32 MoonOut 阅读(241) 评论(0) 推荐(0)

Skill Discovery | LGSD：用描述 state 的语言 embedding 的距离，作为 metra 的 d(x,y) 距离约束

摘要：用语义距离 d_lang(x,y) = cos_sim[ l(s_1), l(s_2)] ，来作为 metra 的 1-Lipschitz 约束。阅读全文

posted @ 2025-07-16 17:50 MoonOut 阅读(213) 评论(0) 推荐(0)

Skill Discovery | FoG：使用 LLM / CLIP 给出 dodont 权重，以引导 agent 安全探索

摘要：使用 LLM / CLIP 模型，输出 state / pixel observation 与人类意图的匹配程度，作为 dodont 的加权权重。阅读全文

posted @ 2025-07-15 20:34 MoonOut 阅读(92) 评论(0) 推荐(0)

Skill Discovery | DoDont：使用 do + don't 示例视频，引导 agent 学习人类期望的 skill

摘要：dodont 将好坏行为的分类器 p hat 融入了 metra 框架里，因此看起来很有直觉。阅读全文

posted @ 2025-07-14 12:38 MoonOut 阅读(286) 评论(0) 推荐(1)

RL | AIR-DREAM Lab 最新论文的速读

摘要：偶然看到了 AIR-DREAM Lab 的主页，读一下。阅读全文

posted @ 2025-06-13 22:15 MoonOut 阅读(132) 评论(0) 推荐(0)

最近读的 MARL 文章

摘要：（一时半会写不完了）阅读全文

posted @ 2025-05-11 17:43 MoonOut 阅读(211) 评论(0) 推荐(0)

RL · Exploration | ETD：使用时序距离构造 intrinsic reward，鼓励 agent 探索

摘要：鼓励 agent 探索与当前 episode 历史在到达时间（temporal distance）上较远的状态。阅读全文

posted @ 2025-04-11 23:40 MoonOut 阅读(246) 评论(1) 推荐(0)

LLM · Agent | 通过推断别人身份 + 别人对自己说话的看法，让 agent 在阿瓦隆中欺骗

摘要：这篇工作或许为需要隐藏身份和欺骗的游戏，提供了一个有效的 prompt 模板。阅读全文

posted @ 2025-03-10 18:03 MoonOut 阅读(134) 评论(0) 推荐(0)

LLM · Agent | 使用 LLM 的通识决策能力，玩星际争霸

摘要：这篇工作或许可以作为一个即时战略游戏的 prompt 参考模板。阅读全文

posted @ 2025-03-10 16:46 MoonOut 阅读(206) 评论(0) 推荐(0)

LLM · Agent | 记忆模块 + 交流模块，让 agent 合作完成复杂任务

摘要：感觉性能好的关键原因：1. prompt 写得好，可以高效沟通；2. agent 记忆的信息形式很简洁。阅读全文

posted @ 2025-03-10 16:22 MoonOut 阅读(549) 评论(0) 推荐(0)

LLM · RL | Plan4MC：使用有向无环图 high-level planning + 基于 RL 执行 low-level policy

摘要：这篇文章使用 LLM 生成了各种 MineCraft 的 skill，但没有利用 LLM 的通识能力，感觉不算 LLM agent 的工作。阅读全文

posted @ 2025-03-10 15:05 MoonOut 阅读(288) 评论(0) 推荐(0)

月出兮彩云归 🌙

随笔分类 - 🍵 论文阅读

公告