月出兮彩云归 - MoonOutCloudBack

[置顶] LaTex · overleaf | 使用技巧存档

摘要：零零散散的经验，存下来方便查阅。

339

1

0

[置顶] Git | git branch 分支操作

摘要：在简单的真实场景下，列举 git branch 系列命令的使用流程

38

0

Linux | 如何创建一个 home 目录在 /data 磁盘的 sudo 用户

摘要：在 ubuntu 服务器上，如何创建一个 home 目录在 /data 磁盘的 sudo 用户。

97

0

论文速读记录 | 2025.04

摘要： 2025.04 | 速读文章纪录

16

0

Conda | 如何在 Linux 服务器安装 miniconda

摘要：如何在 Linux（Ubuntu）系统安装 miniconda。

112

0

1

Docker | 如何在 Linux 服务器使用 docker

摘要：不明觉厉的记下了……

399

0

1

LLM · Agent | 通过推断别人身份 + 别人对自己说话的看法，让 agent 在阿瓦隆中欺骗

摘要：这篇工作或许为需要隐藏身份和欺骗的游戏，提供了一个有效的 prompt 模板。

17

0

LLM · Agent | 使用 LLM 的通识决策能力，玩星际争霸

摘要：这篇工作或许可以作为一个即时战略游戏的 prompt 参考模板。

21

0

LLM · Agent | 记忆模块 + 交流模块，让 agent 合作完成复杂任务

摘要：感觉性能好的关键原因：1. prompt 写得好，可以高效沟通；2. agent 记忆的信息形式很简洁。

56

0

LLM · RL | Plan4MC：使用有向无环图 high-level planning + 基于 RL 执行 low-level policy

摘要：这篇文章使用 LLM 生成了各种 MineCraft 的 skill，但没有利用 LLM 的通识能力，感觉不算 LLM agent 的工作。

103

0

LLM · Agent | 使用 LLM agent 玩各种游戏

摘要：读了一些 LLM agent 玩各种游戏的论文。

39

0

论文速读记录 | 2025.03

摘要： 2025.03 | 速读文章纪录

55

0

1

应用随机过程 | 泊松过程、指数分布、事件到达率

摘要：询问 deepseek 泊松过程、指数分布和事件到达率的含义。

88

0

应用随机过程 | 期末 cheat sheet

摘要：出分后发布笔记……

71

0

应用随机过程 | 期末知识点总结

摘要：出分后发布笔记……

125

0

论文速读记录 | 2025.02

摘要： 2025.02 | 速读文章纪录

84

3

1

Python · GitHub · Linux | 使用本机作为代·理服务器

摘要：添加 RemoteForward 127.0.0.1:7890 127.0.0.1:7890

24

0

Python · Jax | 在 python 3.8 上安装 jax，运行 offline RL 的 IQL

摘要：在 python 3.8 上安装 jax，运行 offline RL 的 IQL。

195

0

Python · MuJoCo | MuJoCo 与 mujoco_py 的版本对应，以及安装 Cython<3

摘要： MuJoCo 210 ~ mujoco_py==2.1.2.14，MuJoCo 200 ~ mujoco_py==2.0.2.8

640

0

论文速读纪录 | 2025.01

摘要： 2025.01 | 速读文章纪录

60

0

1

用 ln 命令创建软链接，Linux 系统

摘要： ① mv source target，② ln -s 真实路径快捷方式路径

45

0

论文速读记录 | 2024.12

摘要： 2024.12 | 速读文章记录

85

1

0

offline RL · PbRL | LiRE：构造 A>B>C 的 RLT 列表，得到更多 preference 数据

摘要： LiRE 的主要贡献（故事）：1. 构造 A>B>C 的 RLT，利用二阶偏好信息；2. 使用线性 reward model，提升 PbRL 性能。

183

0

Contrastive Learning 对比学习 | RL 学 representation 时的对比学习

摘要：在 RL 的 representation learning 中，应用对比学习思想和 InfoNCE loss。

397

0

RL 基础 | 如何复现 PPO，以及一些踩坑经历

摘要：记录一下最近复现 PPO 的过程……

1198

0

1

PbRL | Christiano 2017 年的开山之作，以及 Preference PPO / PrefPPO

摘要： Deep reinforcement learning from human preferences 论文阅读，以及 PrefPPO 算法阅读。

175

0

RL 基础 | 如何使用 OpenAI Gym 接口，搭建自定义 RL 环境（详细版）

摘要：需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。

391

0

使用 GPT 绘制类图、流程图等 UML 图

摘要：让 GPT 生成 UML 图的 plantUML 代码，然后在 plantUML 网站在线绘制

532

0

Git | 重新初始化一个目录下的 git

摘要：删除 git 目录：rm -rf .git

82

0

python · pytorch | 限制程序仅使用 8 个线程

摘要： torch.set_num_threads(8)

86

0

（已解决）OpneGL · MuJoCo · Metaworld | RuntimeError: Failed to initialize OpenGL, assert mdl is not None, AssertionError

摘要：在命令行执行 unset LD_PRELOAD

162

0

MuJoCo | 在 Linux 服务器安装 MuJoCo 210

摘要：官方教程：https://gist.github.com/saratrajput/60b1310fe9d9df664f9983b38b50d5da

72

0

Git | 如何在新服务器上配置 git

摘要： ssh-keygen -t rsa，然后将 .ssh/id_rsa.pub 中的内容，复制到 New SSH key 的框里。

29

0

Conda | 如何（在新服务器上）复制一份旧服务器的 conda 环境，Linux 服务器

摘要： conda env export -n old_env > old_env_conda.yml , conda env create -n new_env -f old_env_conda.yml

439

0

Conda | 如何在 Linux 服务器安装 conda

摘要： Google 搜索官方教程 + 换 tuna 源。

1714

0

Linux · ssh | 如何使用 ssh 密钥，免密码登录 Linux 服务器

摘要：在远程创建 ~/.ssh/authorized_keys，把本地 .ssh/id_rsa.pub 的内容追加到 authorized_keys 里。

31

0

PbRL | RIME：用交叉熵 loss 大小分辨 preference 是否正确 + 内在奖励预训练 reward model

摘要： ① 假设正确样本的 CELoss 上限是 ρ，可推出错误样本相对 P_ψ(x) 分布的 KL 散度上限，从而筛出可信样本、翻转不可信样本；② 用归一化到 (-1,1) 的 intrinsic reward 预训练 reward model。

142

0

交叉熵、KL 散度 | 定义与相互关系

摘要： D_KL(P||Q) = ∫p(x) log p(x) - ∫p(x) log q(x) = H(P) + H(P,Q)

228

0

关于 KL 散度和变分推断的 ELBO

摘要： ELBO 用于最小化 q(z|s) 和 p(z|s) 的 KL 散度，变成最大化 p(x|z) 的 log likelihood + 最小化 q(z|s) 和先验 p(z) 的 KL 散度。

986

0

整理并发布本科四年的课程资料

摘要：整理并发布本科四年的课程资料。

114

1

0

python · pandas |（已解决）AttributeError: 'DataFrame' object has no attribute 'append'

摘要：使用 df.loc[len(df)] = {'key1': 123, 'key2': 234}

316

0

如何将 iPhone 的照片同步到 windows 电脑上（非常快，不耗流量）

摘要：电脑端：在同一个局域网下 + 共享文件夹；手机端：文件 app 连接服务器 + 照片保存到文件。

361

0

月出兮彩云归 🌙

公告

我的标签

随笔分类 (218)

阅读排行榜