摘要: **发表时间:**2019(NeurIPS 2019) **文章要点:**这篇文章研究了parametric models和experience replay的异同,探讨什么时候用什么方式能取得各自的优势。结论是用model去学value和policy的时候,plan backward要比plan 阅读全文
posted @ 2021-12-30 10:13 initial_h 阅读(97) 评论(0) 推荐(0) 编辑