摘要: 鼓励 agent 探索与当前 episode 历史在到达时间(temporal distance)上较远的状态。 阅读全文
posted @ 2025-04-11 23:40 MoonOut 阅读(244) 评论(1) 推荐(0)
摘要: 在 ubuntu 服务器上,如何创建一个 home 目录在 /data 磁盘的 sudo 用户。 阅读全文
posted @ 2025-04-02 16:52 MoonOut 阅读(502) 评论(1) 推荐(0)
摘要: 2025.04 | 速读文章纪录 阅读全文
posted @ 2025-04-01 15:10 MoonOut 阅读(209) 评论(2) 推荐(0)
摘要: 如何在 Linux(Ubuntu)系统安装 miniconda。 阅读全文
posted @ 2025-03-31 14:18 MoonOut 阅读(7097) 评论(1) 推荐(2)
摘要: 不明觉厉的记下了…… 阅读全文
posted @ 2025-03-19 00:24 MoonOut 阅读(1952) 评论(0) 推荐(1)
摘要: 这篇工作或许为需要隐藏身份和欺骗的游戏,提供了一个有效的 prompt 模板。 阅读全文
posted @ 2025-03-10 18:03 MoonOut 阅读(131) 评论(0) 推荐(0)
摘要: 这篇工作或许可以作为一个 即时战略游戏 的 prompt 参考模板。 阅读全文
posted @ 2025-03-10 16:46 MoonOut 阅读(201) 评论(0) 推荐(0)
摘要: 感觉性能好的关键原因:1. prompt 写得好,可以高效沟通;2. agent 记忆的信息形式很简洁。 阅读全文
posted @ 2025-03-10 16:22 MoonOut 阅读(548) 评论(0) 推荐(0)
摘要: 这篇文章使用 LLM 生成了各种 MineCraft 的 skill,但没有利用 LLM 的通识能力,感觉不算 LLM agent 的工作。 阅读全文
posted @ 2025-03-10 15:05 MoonOut 阅读(286) 评论(0) 推荐(0)
摘要: 读了一些 LLM agent 玩各种游戏的论文。 阅读全文
posted @ 2025-03-10 13:57 MoonOut 阅读(621) 评论(0) 推荐(0)
摘要: 2025.03 | 速读文章纪录 阅读全文
posted @ 2025-03-01 19:40 MoonOut 阅读(145) 评论(0) 推荐(1)
摘要: 询问 deepseek 泊松过程、指数分布和事件到达率的含义。 阅读全文
posted @ 2025-02-25 14:27 MoonOut 阅读(820) 评论(0) 推荐(0)
摘要: 出分后发布笔记…… 阅读全文
posted @ 2025-02-07 04:34 MoonOut 阅读(491) 评论(0) 推荐(0)
摘要: 出分后发布笔记…… 阅读全文
posted @ 2025-02-07 04:19 MoonOut 阅读(665) 评论(0) 推荐(0)
摘要: 2025.02 | 速读文章纪录 阅读全文
posted @ 2025-02-03 03:49 MoonOut 阅读(171) 评论(3) 推荐(1)
摘要: 在 python 3.8 上安装 jax,运行 offline RL 的 IQL。 阅读全文
posted @ 2025-01-23 11:47 MoonOut 阅读(663) 评论(0) 推荐(0)
摘要: MuJoCo 210 ~ mujoco_py==2.1.2.14,MuJoCo 200 ~ mujoco_py==2.0.2.8 阅读全文
posted @ 2025-01-12 15:20 MoonOut 阅读(2242) 评论(0) 推荐(0)
摘要: 2025.01 | 速读文章纪录 阅读全文
posted @ 2025-01-02 10:26 MoonOut 阅读(155) 评论(0) 推荐(1)
摘要: ① mv source target,② ln -s 真实路径 快捷方式路径 阅读全文
posted @ 2025-01-01 22:42 MoonOut 阅读(132) 评论(0) 推荐(0)
摘要: 2024.12 | 速读文章记录 阅读全文
posted @ 2024-12-24 11:50 MoonOut 阅读(214) 评论(1) 推荐(0)
摘要: LiRE 的主要贡献(故事):1. 构造 A>B>C 的 RLT,利用二阶偏好信息;2. 使用线性 reward model,提升 PbRL 性能。 阅读全文
posted @ 2024-11-30 16:07 MoonOut 阅读(305) 评论(0) 推荐(0)
摘要: 在 RL 的 representation learning 中,应用对比学习思想和 InfoNCE loss。 阅读全文
posted @ 2024-11-26 12:24 MoonOut 阅读(712) 评论(0) 推荐(0)
摘要: 记录一下最近复现 PPO 的过程…… 阅读全文
posted @ 2024-11-21 16:29 MoonOut 阅读(2582) 评论(0) 推荐(1)
摘要: Deep reinforcement learning from human preferences 论文阅读,以及 PrefPPO 算法阅读。 阅读全文
posted @ 2024-11-20 15:16 MoonOut 阅读(323) 评论(0) 推荐(0)
摘要: 需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。 阅读全文
posted @ 2024-11-11 22:53 MoonOut 阅读(941) 评论(0) 推荐(0)
摘要: 让 GPT 生成 UML 图的 plantUML 代码,然后在 plantUML 网站在线绘制。 阅读全文
posted @ 2024-10-15 19:22 MoonOut 阅读(953) 评论(0) 推荐(0)
摘要: 删除 git 目录:rm -rf .git 阅读全文
posted @ 2024-09-04 16:41 MoonOut 阅读(167) 评论(0) 推荐(0)
摘要: torch.set_num_threads(8) 阅读全文
posted @ 2024-08-11 18:17 MoonOut 阅读(187) 评论(0) 推荐(0)
摘要: 在命令行执行 unset LD_PRELOAD 阅读全文
posted @ 2024-08-11 18:13 MoonOut 阅读(383) 评论(0) 推荐(0)
摘要: 官方教程:https://gist.github.com/saratrajput/60b1310fe9d9df664f9983b38b50d5da 阅读全文
posted @ 2024-07-31 17:57 MoonOut 阅读(299) 评论(0) 推荐(0)
摘要: ssh-keygen -t rsa,然后将 .ssh/id_rsa.pub 中的内容,复制到 New SSH key 的框里。 阅读全文
posted @ 2024-07-31 16:31 MoonOut 阅读(94) 评论(0) 推荐(0)
摘要: conda env export -n old_env > old_env_conda.yml , conda env create -n new_env -f old_env_conda.yml 阅读全文
posted @ 2024-07-31 11:40 MoonOut 阅读(870) 评论(0) 推荐(0)
摘要: Google 搜索官方教程 + 换 tuna 源。 阅读全文
posted @ 2024-07-31 11:38 MoonOut 阅读(3457) 评论(0) 推荐(0)
摘要: 在远程创建 ~/.ssh/authorized_keys,把本地 .ssh/id_rsa.pub 的内容追加到 authorized_keys 里。 阅读全文
posted @ 2024-07-31 10:46 MoonOut 阅读(80) 评论(0) 推荐(0)
摘要: ① 假设正确样本的 CELoss 上限是 ρ,可推出错误样本相对 P_ψ(x) 分布的 KL 散度上限,从而筛出可信样本、翻转不可信样本;② 用归一化到 (-1,1) 的 intrinsic reward 预训练 reward model。 阅读全文
posted @ 2024-07-25 16:10 MoonOut 阅读(229) 评论(0) 推荐(0)
摘要: D_KL(P||Q) = ∫p(x) log p(x) - ∫p(x) log q(x) = H(P) + H(P,Q) 阅读全文
posted @ 2024-07-25 12:35 MoonOut 阅读(430) 评论(0) 推荐(0)
摘要: ELBO 用于最小化 q(z|s) 和 p(z|s) 的 KL 散度,变成最大化 p(x|z) 的 log likelihood + 最小化 q(z|s) 和先验 p(z) 的 KL 散度。 阅读全文
posted @ 2024-06-23 18:10 MoonOut 阅读(2352) 评论(0) 推荐(1)
摘要: 整理并发布本科四年的课程资料。 阅读全文
posted @ 2024-06-23 16:50 MoonOut 阅读(187) 评论(1) 推荐(0)
摘要: 使用 df.loc[len(df)] = {'key1': 123, 'key2': 234} 阅读全文
posted @ 2024-06-23 15:39 MoonOut 阅读(521) 评论(0) 推荐(0)
摘要: 电脑端:在同一个局域网下 + 共享文件夹;手机端:文件 app 连接服务器 + 照片 保存到文件。 阅读全文
posted @ 2024-06-12 11:19 MoonOut 阅读(1075) 评论(0) 推荐(0)