[置顶] LaTex · overleaf | 使用技巧存档
摘要: 零零散散的经验,存下来方便查阅。
313
1
0
[置顶] Git | git branch 分支操作
摘要: 在简单的真实场景下,列举 git branch 系列命令的使用流程
32
0
0
应用随机过程 | 泊松过程、指数分布、事件到达率
摘要: 询问 deepseek 泊松过程、指数分布和事件到达率的含义。
4
0
0
应用随机过程 | 期末 cheat sheet
摘要: 出分后发布笔记……
33
0
0
应用随机过程 | 期末知识点总结
摘要: 出分后发布笔记……
34
0
0
论文速读记录 | 2025.02
摘要: 2025.02 | 速读文章纪录
48
3
1
Python · GitHub · Linux | 使用本机作为代·理服务器
摘要: 添加 RemoteForward 127.0.0.1:7890 127.0.0.1:7890
12
0
0
Python · Jax | 在 python 3.8 上安装 jax,运行 offline RL 的 IQL
摘要: 在 python 3.8 上安装 jax,运行 offline RL 的 IQL。
143
0
0
Python · MuJoCo | MuJoCo 与 mujoco_py 的版本对应,以及安装 Cython<3
摘要: MuJoCo 210 ~ mujoco_py==2.1.2.14,MuJoCo 200 ~ mujoco_py==2.0.2.8
329
0
0
论文速读纪录 | 2025.01
摘要: 2025.01 | 速读文章纪录
35
0
1
用 ln 命令创建软链接,Linux 系统
摘要: ① mv source target,② ln -s 真实路径 快捷方式路径
33
0
0
论文速读记录 | 2024.12
摘要: 2024.12 | 速读文章记录
63
1
0
offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
摘要: LiRE 的主要贡献(故事):1. 构造 A>B>C 的 RLT,利用二阶偏好信息;2. 使用线性 reward model,提升 PbRL 性能。
157
0
0
Contrastive Learning 对比学习 | RL 学 representation 时的对比学习
摘要: 在 RL 的 representation learning 中,应用对比学习思想和 InfoNCE loss。
302
0
0
RL 基础 | 如何复现 PPO,以及一些踩坑经历
摘要: 记录一下最近复现 PPO 的过程……
785
0
1
PbRL | Christiano 2017 年的开山之作,以及 Preference PPO / PrefPPO
摘要: Deep reinforcement learning from human preferences 论文阅读,以及 PrefPPO 算法阅读。
144
0
0
RL 基础 | 如何使用 OpenAI Gym 接口,搭建自定义 RL 环境(详细版)
摘要: 需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。
290
0
0
使用 GPT 绘制类图、流程图等 UML 图
摘要: 让 GPT 生成 UML 图的 plantUML 代码,然后在 plantUML 网站在线绘制
443
0
0
Git | 重新初始化一个目录下的 git
摘要: 删除 git 目录:rm -rf .git
70
0
0
MuJoCo | 在 Linux 服务器安装 MuJoCo 210
摘要: 官方教程:https://gist.github.com/saratrajput/60b1310fe9d9df664f9983b38b50d5da
61
0
0
Git | 如何在新服务器上配置 git
摘要: ssh-keygen -t rsa,然后将 .ssh/id_rsa.pub 中的内容,复制到 New SSH key 的框里。
23
0
0
Conda | 如何(在新服务器上)复制一份旧服务器的 conda 环境,Linux 服务器
摘要: conda env export -n old_env > old_env_conda.yml , conda env create -n new_env -f old_env_conda.yml
390
0
0
Conda | 如何在 Linux 服务器安装 conda
摘要: Google 搜索官方教程 + 换 tuna 源。
1377
0
0
如何免密码登录 Linux 服务器 · ssh 密钥
摘要: 在远程创建 ~/.ssh/authorized_keys,把本地 .ssh/id_rsa.pub 的内容追加到 authorized_keys 里。
25
0
0
PbRL | RIME:用交叉熵 loss 大小分辨 preference 是否正确 + 内在奖励预训练 reward model
摘要: ① 假设正确样本的 CELoss 上限是 ρ,可推出错误样本相对 P_ψ(x) 分布的 KL 散度上限,从而筛出可信样本、翻转不可信样本;② 用归一化到 (-1,1) 的 intrinsic reward 预训练 reward model。
127
0
0
交叉熵、KL 散度 | 定义与相互关系
摘要: D_KL(P||Q) = ∫p(x) log p(x) - ∫p(x) log q(x) = H(P) + H(P,Q)
181
0
0
关于 KL 散度和变分推断的 ELBO
摘要: ELBO 用于最小化 q(z|s) 和 p(z|s) 的 KL 散度,变成最大化 p(x|z) 的 log likelihood + 最小化 q(z|s) 和先验 p(z) 的 KL 散度。
865
0
0
整理并发布本科四年的课程资料
摘要: 整理并发布本科四年的课程资料。
102
1
0
python · pandas |(已解决)AttributeError: 'DataFrame' object has no attribute 'append'
摘要: 使用 df.loc[len(df)] = {'key1': 123, 'key2': 234}
270
0
0
如何将 iPhone 的照片同步到 windows 电脑上(非常快,不耗流量)
摘要: 电脑端:在同一个局域网下 + 共享文件夹;手机端:文件 app 连接服务器 + 照片 保存到文件。
305
0
0
MORL | 速通三大会的 MORL 工作
摘要: 简单看了一下三大会近期的 Multi-objective RL 工作。
406
0
0
如何 kill 掉所有跟 wandb 相关的进程
摘要: 【ps -ef | grep '[w]andb'】【pkill -f wandb】
570
0
0
发布「月出兮彩云归」的新 icon
摘要: 在某些契机下,制作了构想很久的个人 icon。
29
0
0
RL 基础 | Policy Gradient 的推导
摘要: 如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。
231
0
0
offline RL | D4RL:最常用的 offline 数据集之一
摘要: ① medium:中等策略。② random:随机策略。③ medium-replay:训到中等策略的整个 replay buffer。④ medium-expert:等量混合专家数据和次优数据(次优或随机策略)。
1196
0
0
Contrastive Learning 对比学习 | 何恺明大神的 SimSiam
摘要: 主要 trick:① 更新 A 时把 B stop-gradient,② 在 encoder 后添加神秘的 MLP 层。
1104
0
0
offline RL · PbRL | Preference Transformer:反正感觉 transformer 很强大
摘要: ① 定义 non-Markovian reward 的输入是 trajectory,② 使用 exp Σ w(τ) · r(τ) 的 preference 形式。
279
1
0
贴个不知真假的 representation learning for RL 综述
摘要: Act as a reinforcement learning expert. Please do a review for representation learning in RL. Should focus on how to map a trajectory to a latent.
122
1
0
offline RL · PbRL | OPPO:PbRL 场景的 offline hindsight transformer
摘要: 将 offline HIM 应用到 PbRL,① 用离线轨迹训练 a=π(s,z) ,② 训练最优 hindsight z* 靠近 z+ 远离 z-。
76
0
0
offline RL | HIM:基于 hindsight 的 RL 是一类大 idea
摘要: 将 offline 训练轨迹中,当前时刻之后发生的事 作为 hindsight,从而训练出 想要达到当前 hindsight 的 action。
235
0
0
深色
回顶
收起
点击右上角即可分享
微信分享提示
  1. 1 Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto Jascha Heifetz / Chicago Symphony Orchestra
Sibelius: Violin Concerto in D Minor, Op. 47:III. Allegro, ma non tanto - Jascha Heifetz / Chicago Symphony Orchestra
00:00 / 00:00
An audio error has occurred.