随笔档案「2021年10月21日」：MOPO: Model-based Offline Policy Optimiz... - initial_h

2021年10月21日

MOPO: Model-based Offline Policy Optimization

摘要： **发表时间：**2020（NeurIPS 2020） **文章要点：**目前主流的offline RL的方法都是model free的，这类方法通常需要将policy限制到data覆盖的集合范围里（support），不能泛化到没见过的状态上。作者提出Model-based Offline Poli 阅读全文

posted @ 2021-10-21 10:42 initial_h 阅读(1235) 评论(0) 推荐(0)

initial_h

https://github.com/initial-h

公告