随笔分类 - 🍵 论文阅读
摘要:提供了 MATH、GSM8K、AIME24 等常用数学数据集的 基本信息和链接。
阅读全文
摘要:REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”,并搭配稳定的 KL 估计方式,比 PPO 轻量级,比 GRPO 稳定和泛化性强。
阅读全文
摘要:面对多任务 / 多目标学习中,可能相互冲突的梯度信号,现有方法通过加权、投影、统一符号等方法,调合这些梯度信号。
阅读全文
摘要:ARC-AGI benchmark 提供了基于视觉网格的谜题,它们是“对于人类简单、对于大模型困难”的问题。
阅读全文
摘要:最近读了一些在多轮(multi-turn)任务上用 RL 微调 LLM 的文章,记录阅读笔记。
阅读全文
摘要:存档,博士生资格考试的 20 篇文献。
阅读全文
摘要:EQL 将单目标的 bellman 算子拓展到多目标 RL 上,并复刻了 value iteration 的收敛性保证。
阅读全文
摘要:贾庆山老师团队的事件驱动优化 + 数据中心工作。
阅读全文
摘要:① 用对比学习把参考轨迹的 embedding 尽可能拉远,② 使用 DIAYN reward 同时做模仿学习和 skill discovery。
阅读全文
摘要:为 state space 训练一个紧凑的 embedding space,使得 embedding 间的距离与 temporal distance 相匹配,然后让 policy 尽可能覆盖 embedding space。
阅读全文
摘要:用语义距离 d_lang(x,y) = cos_sim[ l(s_1), l(s_2)] ,来作为 metra 的 1-Lipschitz 约束。
阅读全文
摘要:使用 LLM / CLIP 模型,输出 state / pixel observation 与人类意图的匹配程度,作为 dodont 的加权权重。
阅读全文
摘要:dodont 将好坏行为的分类器 p hat 融入了 metra 框架里,因此看起来很有直觉。
阅读全文
摘要:偶然看到了 AIR-DREAM Lab 的主页,读一下。
阅读全文
摘要:鼓励 agent 探索与当前 episode 历史在到达时间(temporal distance)上较远的状态。
阅读全文
摘要:这篇工作或许为需要隐藏身份和欺骗的游戏,提供了一个有效的 prompt 模板。
阅读全文
摘要:这篇工作或许可以作为一个 即时战略游戏 的 prompt 参考模板。
阅读全文
摘要:感觉性能好的关键原因:1. prompt 写得好,可以高效沟通;2. agent 记忆的信息形式很简洁。
阅读全文
摘要:这篇文章使用 LLM 生成了各种 MineCraft 的 skill,但没有利用 LLM 的通识能力,感觉不算 LLM agent 的工作。
阅读全文

浙公网安备 33010602011771号