posted @ 2025-02-07 04:19
MoonOut
阅读(676)
推荐(0)
摘要:
2025.02 | 速读文章纪录
阅读全文
posted @ 2025-02-03 03:49
MoonOut
阅读(174)
推荐(1)
摘要:
在 python 3.8 上安装 jax,运行 offline RL 的 IQL。
阅读全文
posted @ 2025-01-23 11:47
MoonOut
阅读(680)
推荐(0)
摘要:
MuJoCo 210 ~ mujoco_py==2.1.2.14,MuJoCo 200 ~ mujoco_py==2.0.2.8
阅读全文
posted @ 2025-01-12 15:20
MoonOut
阅读(2278)
推荐(0)
摘要:
2025.01 | 速读文章纪录
阅读全文
posted @ 2025-01-02 10:26
MoonOut
阅读(159)
推荐(1)
摘要:
① mv source target,② ln -s 真实路径 快捷方式路径
阅读全文
posted @ 2025-01-01 22:42
MoonOut
阅读(135)
推荐(0)
摘要:
2024.12 | 速读文章记录
阅读全文
posted @ 2024-12-24 11:50
MoonOut
阅读(218)
推荐(0)
摘要:
LiRE 的主要贡献(故事):1. 构造 A>B>C 的 RLT,利用二阶偏好信息;2. 使用线性 reward model,提升 PbRL 性能。
阅读全文
posted @ 2024-11-30 16:07
MoonOut
阅读(310)
推荐(0)
摘要:
在 RL 的 representation learning 中,应用对比学习思想和 InfoNCE loss。
阅读全文
posted @ 2024-11-26 12:24
MoonOut
阅读(719)
推荐(0)
摘要:
记录一下最近复现 PPO 的过程……
阅读全文
posted @ 2024-11-21 16:29
MoonOut
阅读(2610)
推荐(1)
摘要:
Deep reinforcement learning from human preferences 论文阅读,以及 PrefPPO 算法阅读。
阅读全文
posted @ 2024-11-20 15:16
MoonOut
阅读(358)
推荐(0)
摘要:
需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。
阅读全文
posted @ 2024-11-11 22:53
MoonOut
阅读(1008)
推荐(0)
摘要:
让 GPT 生成 UML 图的 plantUML 代码,然后在 plantUML 网站在线绘制。
阅读全文
posted @ 2024-10-15 19:22
MoonOut
阅读(969)
推荐(0)
摘要:
删除 git 目录:rm -rf .git
阅读全文
posted @ 2024-09-04 16:41
MoonOut
阅读(173)
推荐(0)
摘要:
torch.set_num_threads(8)
阅读全文
posted @ 2024-08-11 18:17
MoonOut
阅读(189)
推荐(0)
摘要:
在命令行执行 unset LD_PRELOAD
阅读全文
posted @ 2024-08-11 18:13
MoonOut
阅读(390)
推荐(0)
摘要:
官方教程:https://gist.github.com/saratrajput/60b1310fe9d9df664f9983b38b50d5da
阅读全文
posted @ 2024-07-31 17:57
MoonOut
阅读(318)
推荐(0)
摘要:
ssh-keygen -t rsa,然后将 .ssh/id_rsa.pub 中的内容,复制到 New SSH key 的框里。
阅读全文
posted @ 2024-07-31 16:31
MoonOut
阅读(98)
推荐(0)
摘要:
conda env export -n old_env > old_env_conda.yml , conda env create -n new_env -f old_env_conda.yml
阅读全文
posted @ 2024-07-31 11:40
MoonOut
阅读(874)
推荐(0)
摘要:
Google 搜索官方教程 + 换 tuna 源。
阅读全文
posted @ 2024-07-31 11:38
MoonOut
阅读(3507)
推荐(0)
摘要:
在远程创建 ~/.ssh/authorized_keys,把本地 .ssh/id_rsa.pub 的内容追加到 authorized_keys 里。
阅读全文
posted @ 2024-07-31 10:46
MoonOut
阅读(87)
推荐(0)
摘要:
① 假设正确样本的 CELoss 上限是 ρ,可推出错误样本相对 P_ψ(x) 分布的 KL 散度上限,从而筛出可信样本、翻转不可信样本;② 用归一化到 (-1,1) 的 intrinsic reward 预训练 reward model。
阅读全文
posted @ 2024-07-25 16:10
MoonOut
阅读(231)
推荐(0)
摘要:
D_KL(P||Q) = ∫p(x) log p(x) - ∫p(x) log q(x) = H(P) + H(P,Q)
阅读全文
posted @ 2024-07-25 12:35
MoonOut
阅读(435)
推荐(0)
摘要:
ELBO 用于最小化 q(z|s) 和 p(z|s) 的 KL 散度,变成最大化 p(x|z) 的 log likelihood + 最小化 q(z|s) 和先验 p(z) 的 KL 散度。
阅读全文
posted @ 2024-06-23 18:10
MoonOut
阅读(2379)
推荐(1)
posted @ 2024-06-23 16:50
MoonOut
阅读(190)
推荐(0)
摘要:
使用 df.loc[len(df)] = {'key1': 123, 'key2': 234}
阅读全文
posted @ 2024-06-23 15:39
MoonOut
阅读(532)
推荐(0)
摘要:
电脑端:在同一个局域网下 + 共享文件夹;手机端:文件 app 连接服务器 + 照片 保存到文件。
阅读全文
posted @ 2024-06-12 11:19
MoonOut
阅读(1112)
推荐(0)
摘要:
简单看了一下三大会近期的 Multi-objective RL 工作。
阅读全文
posted @ 2024-05-28 22:31
MoonOut
阅读(1226)
推荐(1)
摘要:
【ps -ef | grep '[w]andb'】【pkill -f wandb】
阅读全文
posted @ 2024-04-22 11:31
MoonOut
阅读(861)
推荐(0)
摘要:
在某些契机下,制作了构想很久的个人 icon。
阅读全文
posted @ 2024-03-21 16:55
MoonOut
阅读(60)
推荐(0)
摘要:
如果想最大化期望下的 R(τ),那么策略梯度 = R(τ) · Σ ▽log π(a|s) ,即 discounted return × Σ 梯度 log [选取该 action 的概率] 。
阅读全文
posted @ 2024-03-21 16:46
MoonOut
阅读(460)
推荐(0)
摘要:
① medium:中等策略。② random:随机策略。③ medium-replay:训到中等策略的整个 replay buffer。④ medium-expert:等量混合专家数据和次优数据(次优或随机策略)。
阅读全文
posted @ 2024-03-09 17:36
MoonOut
阅读(2519)
推荐(0)
摘要:
主要 trick:① 更新 A 时把 B stop-gradient,② 在 encoder 后添加神秘的 MLP 层。
阅读全文
posted @ 2024-03-07 20:40
MoonOut
阅读(1617)
推荐(0)
摘要:
① 定义 non-Markovian reward 的输入是 trajectory,② 使用 exp Σ w(τ) · r(τ) 的 preference 形式。
阅读全文
posted @ 2024-03-06 12:57
MoonOut
阅读(407)
推荐(0)
摘要:
Act as a reinforcement learning expert. Please do a review for representation learning in RL. Should focus on how to map a trajectory to a latent.
阅读全文
posted @ 2024-02-29 16:10
MoonOut
阅读(323)
推荐(0)
摘要:
将 offline HIM 应用到 PbRL,① 用离线轨迹训练 a=π(s,z) ,② 训练最优 hindsight z* 靠近 z+ 远离 z-。
阅读全文
posted @ 2024-02-27 21:38
MoonOut
阅读(171)
推荐(0)
摘要:
将 offline 训练轨迹中,当前时刻之后发生的事 作为 hindsight,从而训练出 想要达到当前 hindsight 的 action。
阅读全文
posted @ 2024-02-27 21:08
MoonOut
阅读(443)
推荐(0)
摘要:
① sequence: {s, a, R, s, ...};② 在 s 的 decode 结果上加 MLP 预测 action;③ 给定 return-to-go 作为某种 hindsight。
阅读全文
posted @ 2024-02-27 20:14
MoonOut
阅读(1004)
推荐(2)
posted @ 2024-02-20 11:29
MoonOut
阅读(634)
推荐(0)
摘要:
Proportional-Integral-Derivative(PID),比例-积分-微分控制。
阅读全文
posted @ 2024-02-17 10:55
MoonOut
阅读(553)
推荐(0)