摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章提出了一个叫Simulated Policy Learning (SimPLe)的算法,用model based的方式来提高sample efficiency,在和环境交互100K次的限制下,比所有model free算法的 阅读全文
posted @ 2021-12-03 11:48 initial_h 阅读(87) 评论(0) 推荐(0) 编辑