摘要: 把 OOD 的 Q 函数值拉低,ID 的 Q 函数值拉高,因此倾向于选择原来数据集里有的 ID 的 action。 阅读全文
posted @ 2023-11-07 15:12 MoonOut 阅读(707) 评论(0) 推荐(2) 编辑
摘要: sup inf ≤ inf sup,证明关键: inf_w f(w,z) 是 f(w0,z) 逐点下界,对于任意 w0。 阅读全文
posted @ 2023-11-07 10:51 MoonOut 阅读(199) 评论(1) 推荐(0) 编辑