摘要: ① unlearn:保守 offline RL 训出的 Q function 太小,被 online 的真 reward 量级压制,导致 policy 初始化破坏,性能下降。② 校准:魔改 CQL 惩罚,令 Q_θ ≥ Q_β。 阅读全文
posted @ 2024-02-07 20:14 MoonOut 阅读(82) 评论(0) 推荐(0) 编辑
摘要: 在 offline + online buffer 的采样概率,应当与 d^{on}(s,a) / d^{off}(s,a) 成正比(importance sampling)。 阅读全文
posted @ 2024-02-07 14:08 MoonOut 阅读(223) 评论(0) 推荐(1) 编辑