摘要: **发表时间:**2020(NeurIPS 2020) **文章要点:**目前主流的offline RL的方法都是model free的,这类方法通常需要将policy限制到data覆盖的集合范围里(support),不能泛化到没见过的状态上。作者提出Model-based Offline Poli 阅读全文
posted @ 2021-10-21 10:42 initial_h 阅读(951) 评论(0) 推荐(0) 编辑