摘要: 对于 policy improvement,maximize Q(s, π(s)) ,同时约束 π 与一个 prior policy 的 KL 散度,prior policy 用 advantage 非负的 offline 状态转移计算。 阅读全文
posted @ 2024-01-21 11:26 MoonOut 阅读(99) 评论(0) 推荐(0) 编辑
摘要: OpenReview 检索关键词:ICLR 2024、reinforcement learning、preference、human feedback。 阅读全文
posted @ 2024-01-21 11:17 MoonOut 阅读(345) 评论(0) 推荐(0) 编辑