Linux | 如何创建一个 home 目录在 /data 磁盘的 sudo 用户
摘要:
在 ubuntu 服务器上,如何创建一个 home 目录在 /data 磁盘的 sudo 用户。
LLM · Agent | 通过推断别人身份 + 别人对自己说话的看法,让 agent 在阿瓦隆中欺骗
摘要:
这篇工作或许为需要隐藏身份和欺骗的游戏,提供了一个有效的 prompt 模板。
LLM · Agent | 记忆模块 + 交流模块,让 agent 合作完成复杂任务
摘要:
感觉性能好的关键原因:1. prompt 写得好,可以高效沟通;2. agent 记忆的信息形式很简洁。
LLM · RL | Plan4MC:使用有向无环图 high-level planning + 基于 RL 执行 low-level policy
摘要:
这篇文章使用 LLM 生成了各种 MineCraft 的 skill,但没有利用 LLM 的通识能力,感觉不算 LLM agent 的工作。
Python · Jax | 在 python 3.8 上安装 jax,运行 offline RL 的 IQL
摘要:
在 python 3.8 上安装 jax,运行 offline RL 的 IQL。
Python · MuJoCo | MuJoCo 与 mujoco_py 的版本对应,以及安装 Cython<3
摘要:
MuJoCo 210 ~ mujoco_py==2.1.2.14,MuJoCo 200 ~ mujoco_py==2.0.2.8
offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
摘要:
LiRE 的主要贡献(故事):1. 构造 A>B>C 的 RLT,利用二阶偏好信息;2. 使用线性 reward model,提升 PbRL 性能。
Contrastive Learning 对比学习 | RL 学 representation 时的对比学习
摘要:
在 RL 的 representation learning 中,应用对比学习思想和 InfoNCE loss。
PbRL | Christiano 2017 年的开山之作,以及 Preference PPO / PrefPPO
摘要:
Deep reinforcement learning from human preferences 论文阅读,以及 PrefPPO 算法阅读。
RL 基础 | 如何使用 OpenAI Gym 接口,搭建自定义 RL 环境(详细版)
摘要:
需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。
(已解决)OpneGL · MuJoCo · Metaworld | RuntimeError: Failed to initialize OpenGL, assert mdl is not None, AssertionError
摘要:
在命令行执行 unset LD_PRELOAD
MuJoCo | 在 Linux 服务器安装 MuJoCo 210
摘要:
官方教程:https://gist.github.com/saratrajput/60b1310fe9d9df664f9983b38b50d5da
Conda | 如何(在新服务器上)复制一份旧服务器的 conda 环境,Linux 服务器
摘要:
conda env export -n old_env > old_env_conda.yml , conda env create -n new_env -f old_env_conda.yml
Linux · ssh | 如何使用 ssh 密钥,免密码登录 Linux 服务器
摘要:
在远程创建 ~/.ssh/authorized_keys,把本地 .ssh/id_rsa.pub 的内容追加到 authorized_keys 里。
PbRL | RIME:用交叉熵 loss 大小分辨 preference 是否正确 + 内在奖励预训练 reward model
摘要:
① 假设正确样本的 CELoss 上限是 ρ,可推出错误样本相对 P_ψ(x) 分布的 KL 散度上限,从而筛出可信样本、翻转不可信样本;② 用归一化到 (-1,1) 的 intrinsic reward 预训练 reward model。
关于 KL 散度和变分推断的 ELBO
摘要:
ELBO 用于最小化 q(z|s) 和 p(z|s) 的 KL 散度,变成最大化 p(x|z) 的 log likelihood + 最小化 q(z|s) 和先验 p(z) 的 KL 散度。
python · pandas |(已解决)AttributeError: 'DataFrame' object has no attribute 'append'
摘要:
使用 df.loc[len(df)] = {'key1': 123, 'key2': 234}
如何将 iPhone 的照片同步到 windows 电脑上(非常快,不耗流量)
摘要:
电脑端:在同一个局域网下 + 共享文件夹;手机端:文件 app 连接服务器 + 照片 保存到文件。