会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
月出兮彩云归 🌙
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
下一页
2025年8月6日
论文速读记录 | 2025.08
摘要: 2025.08 | 速读文章纪录
阅读全文
posted @ 2025-08-06 14:10 MoonOut
阅读(57)
评论(0)
推荐(0)
2025年7月18日
Skill Discovery | METRA:让策略探索 state 的紧凑 embedding space
摘要: 为 state space 训练一个紧凑的 embedding space,使得 embedding 间的距离与 temporal distance 相匹配,然后让 policy 尽可能覆盖 embedding space。
阅读全文
posted @ 2025-07-18 23:32 MoonOut
阅读(240)
评论(0)
推荐(0)
2025年7月16日
Skill Discovery | LGSD:用描述 state 的语言 embedding 的距离,作为 metra 的 d(x,y) 距离约束
摘要: 用语义距离 d_lang(x,y) = cos_sim[ l(s_1), l(s_2)] ,来作为 metra 的 1-Lipschitz 约束。
阅读全文
posted @ 2025-07-16 17:50 MoonOut
阅读(212)
评论(0)
推荐(0)
2025年7月15日
Skill Discovery | FoG:使用 LLM / CLIP 给出 dodont 权重,以引导 agent 安全探索
摘要: 使用 LLM / CLIP 模型,输出 state / pixel observation 与人类意图的匹配程度,作为 dodont 的加权权重。
阅读全文
posted @ 2025-07-15 20:34 MoonOut
阅读(91)
评论(0)
推荐(0)
2025年7月14日
Skill Discovery | DoDont:使用 do + don't 示例视频,引导 agent 学习人类期望的 skill
摘要: dodont 将好坏行为的分类器 p hat 融入了 metra 框架里,因此看起来很有直觉。
阅读全文
posted @ 2025-07-14 12:38 MoonOut
阅读(284)
评论(0)
推荐(1)
2025年7月4日
论文速读记录 | 2025.07
摘要: 2025.07 | 速读文章纪录
阅读全文
posted @ 2025-07-04 11:01 MoonOut
阅读(113)
评论(0)
推荐(0)
2025年6月13日
RL | AIR-DREAM Lab 最新论文的速读
摘要: 偶然看到了 AIR-DREAM Lab 的主页,读一下。
阅读全文
posted @ 2025-06-13 22:15 MoonOut
阅读(131)
评论(0)
推荐(0)
2025年6月7日
RL | 如何推导 MaxEnt RL(最大熵 RL)的策略形式 π(a|s) ∝ exp(Q(s, a))
摘要: 考虑一步策略改进,把选 action 的概率 $\pi (a|s)$ 当作变量,$\sum \pi (a|s) = 1$ 作为约束条件,使用拉格朗日乘子 $\lambda$ 干掉。对 $V^\text{new}(s)$ 求偏导,偏导数 = 0。
阅读全文
posted @ 2025-06-07 21:31 MoonOut
阅读(225)
评论(0)
推荐(0)
2025年6月1日
论文速读记录 | 2025.06
摘要: 2025.06 | 速读文章纪录
阅读全文
posted @ 2025-06-01 07:14 MoonOut
阅读(155)
评论(0)
推荐(0)
2025年5月11日
最近读的 MARL 文章
摘要: (一时半会写不完了)
阅读全文
posted @ 2025-05-11 17:43 MoonOut
阅读(195)
评论(0)
推荐(0)
2025年5月2日
论文速读记录 | 2025.05
摘要: 2025.05 | 速读文章纪录
阅读全文
posted @ 2025-05-02 17:47 MoonOut
阅读(169)
评论(0)
推荐(0)
2025年4月15日
Git | 如何将一个 remote branch 拉到本地
摘要: git fetch origin, git stash, git checkout -b [] origin/[]
阅读全文
posted @ 2025-04-15 15:32 MoonOut
阅读(42)
评论(0)
推荐(0)
2025年4月11日
RL · Exploration | ETD:使用时序距离构造 intrinsic reward,鼓励 agent 探索
摘要: 鼓励 agent 探索与当前 episode 历史在到达时间(temporal distance)上较远的状态。
阅读全文
posted @ 2025-04-11 23:40 MoonOut
阅读(244)
评论(1)
推荐(0)
2025年4月2日
(总集篇)Linux | 如何创建一个 home 目录在 /data 磁盘的 sudo 用户
摘要: 在 ubuntu 服务器上,如何创建一个 home 目录在 /data 磁盘的 sudo 用户。
阅读全文
posted @ 2025-04-02 16:52 MoonOut
阅读(504)
评论(1)
推荐(0)
2025年4月1日
论文速读记录 | 2025.04
摘要: 2025.04 | 速读文章纪录
阅读全文
posted @ 2025-04-01 15:10 MoonOut
阅读(209)
评论(2)
推荐(0)
2025年3月31日
Conda | 如何在 Linux 服务器安装 miniconda
摘要: 如何在 Linux(Ubuntu)系统安装 miniconda。
阅读全文
posted @ 2025-03-31 14:18 MoonOut
阅读(7160)
评论(1)
推荐(2)
2025年3月19日
Docker | 如何在 Linux 服务器使用 docker
摘要: 不明觉厉的记下了……
阅读全文
posted @ 2025-03-19 00:24 MoonOut
阅读(1966)
评论(0)
推荐(1)
2025年3月10日
LLM · Agent | 通过推断别人身份 + 别人对自己说话的看法,让 agent 在阿瓦隆中欺骗
摘要: 这篇工作或许为需要隐藏身份和欺骗的游戏,提供了一个有效的 prompt 模板。
阅读全文
posted @ 2025-03-10 18:03 MoonOut
阅读(132)
评论(0)
推荐(0)
LLM · Agent | 使用 LLM 的通识决策能力,玩星际争霸
摘要: 这篇工作或许可以作为一个 即时战略游戏 的 prompt 参考模板。
阅读全文
posted @ 2025-03-10 16:46 MoonOut
阅读(202)
评论(0)
推荐(0)
LLM · Agent | 记忆模块 + 交流模块,让 agent 合作完成复杂任务
摘要: 感觉性能好的关键原因:1. prompt 写得好,可以高效沟通;2. agent 记忆的信息形式很简洁。
阅读全文
posted @ 2025-03-10 16:22 MoonOut
阅读(548)
评论(0)
推荐(0)
LLM · RL | Plan4MC:使用有向无环图 high-level planning + 基于 RL 执行 low-level policy
摘要: 这篇文章使用 LLM 生成了各种 MineCraft 的 skill,但没有利用 LLM 的通识能力,感觉不算 LLM agent 的工作。
阅读全文
posted @ 2025-03-10 15:05 MoonOut
阅读(286)
评论(0)
推荐(0)
LLM · Agent | 使用 LLM agent 玩各种游戏
摘要: 读了一些 LLM agent 玩各种游戏的论文。
阅读全文
posted @ 2025-03-10 13:57 MoonOut
阅读(630)
评论(0)
推荐(0)
2025年3月1日
论文速读记录 | 2025.03
摘要: 2025.03 | 速读文章纪录
阅读全文
posted @ 2025-03-01 19:40 MoonOut
阅读(145)
评论(0)
推荐(1)
2025年2月25日
应用随机过程 | 泊松过程、指数分布、事件到达率
摘要: 询问 deepseek 泊松过程、指数分布和事件到达率的含义。
阅读全文
posted @ 2025-02-25 14:27 MoonOut
阅读(825)
评论(0)
推荐(0)
2025年2月7日
应用随机过程 | 期末 cheat sheet
摘要: 出分后发布笔记……
阅读全文
posted @ 2025-02-07 04:34 MoonOut
阅读(491)
评论(0)
推荐(0)
应用随机过程 | 期末知识点总结
摘要: 出分后发布笔记……
阅读全文
posted @ 2025-02-07 04:19 MoonOut
阅读(665)
评论(0)
推荐(0)
2025年2月3日
论文速读记录 | 2025.02
摘要: 2025.02 | 速读文章纪录
阅读全文
posted @ 2025-02-03 03:49 MoonOut
阅读(171)
评论(3)
推荐(1)
2025年1月23日
Python · Jax | 在 python 3.8 上安装 jax,运行 offline RL 的 IQL
摘要: 在 python 3.8 上安装 jax,运行 offline RL 的 IQL。
阅读全文
posted @ 2025-01-23 11:47 MoonOut
阅读(666)
评论(0)
推荐(0)
2025年1月12日
Python · MuJoCo | MuJoCo 与 mujoco_py 的版本对应,以及安装 Cython<3
摘要: MuJoCo 210 ~ mujoco_py==2.1.2.14,MuJoCo 200 ~ mujoco_py==2.0.2.8
阅读全文
posted @ 2025-01-12 15:20 MoonOut
阅读(2248)
评论(0)
推荐(0)
2025年1月2日
论文速读纪录 | 2025.01
摘要: 2025.01 | 速读文章纪录
阅读全文
posted @ 2025-01-02 10:26 MoonOut
阅读(155)
评论(0)
推荐(1)
2025年1月1日
用 ln 命令创建软链接,Linux 系统
摘要: ① mv source target,② ln -s 真实路径 快捷方式路径
阅读全文
posted @ 2025-01-01 22:42 MoonOut
阅读(132)
评论(0)
推荐(0)
2024年12月24日
论文速读记录 | 2024.12
摘要: 2024.12 | 速读文章记录
阅读全文
posted @ 2024-12-24 11:50 MoonOut
阅读(215)
评论(1)
推荐(0)
2024年11月30日
offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
摘要: LiRE 的主要贡献(故事):1. 构造 A>B>C 的 RLT,利用二阶偏好信息;2. 使用线性 reward model,提升 PbRL 性能。
阅读全文
posted @ 2024-11-30 16:07 MoonOut
阅读(306)
评论(0)
推荐(0)
2024年11月26日
Contrastive Learning 对比学习 | RL 学 representation 时的对比学习
摘要: 在 RL 的 representation learning 中,应用对比学习思想和 InfoNCE loss。
阅读全文
posted @ 2024-11-26 12:24 MoonOut
阅读(713)
评论(0)
推荐(0)
2024年11月21日
RL 基础 | 如何复现 PPO,以及一些踩坑经历
摘要: 记录一下最近复现 PPO 的过程……
阅读全文
posted @ 2024-11-21 16:29 MoonOut
阅读(2585)
评论(0)
推荐(1)
2024年11月20日
PbRL | Christiano 2017 年的开山之作,以及 Preference PPO / PrefPPO
摘要: Deep reinforcement learning from human preferences 论文阅读,以及 PrefPPO 算法阅读。
阅读全文
posted @ 2024-11-20 15:16 MoonOut
阅读(324)
评论(0)
推荐(0)
2024年11月11日
RL 基础 | 如何使用 OpenAI Gym 接口,搭建自定义 RL 环境(详细版)
摘要: 需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。
阅读全文
posted @ 2024-11-11 22:53 MoonOut
阅读(945)
评论(0)
推荐(0)
2024年10月15日
使用 GPT 绘制类图、流程图等 UML 图
摘要: 让 GPT 生成 UML 图的 plantUML 代码,然后在 plantUML 网站在线绘制。
阅读全文
posted @ 2024-10-15 19:22 MoonOut
阅读(958)
评论(0)
推荐(0)
2024年9月4日
Git | 重新初始化一个目录下的 git
摘要: 删除 git 目录:rm -rf .git
阅读全文
posted @ 2024-09-04 16:41 MoonOut
阅读(167)
评论(0)
推荐(0)
2024年8月11日
python · pytorch | 限制程序仅使用 8 个线程
摘要: torch.set_num_threads(8)
阅读全文
posted @ 2024-08-11 18:17 MoonOut
阅读(187)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
下一页
公告