摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章说现在的planning方法都是在动作空间里randomly generated,这样很不高效(其实瞎扯了,很多不是随机的方法啊)。作者提出在model based RL里用policy网络来做online planning 阅读全文
posted @ 2023-04-27 23:02 initial_h 阅读(44) 评论(0) 推荐(0) 编辑