摘要: **发表时间:**2020(NeurIPS 2020) **文章要点:**这篇文章用model based方法去做offline RL。主要分为两步,第一步是用offline data学一个pessimistic MDP (P-MDP),第二步就是用这个P-MDP去学一个near-optimal p 阅读全文
posted @ 2021-11-12 14:25 initial_h 阅读(589) 评论(0) 推荐(1) 编辑