摘要: **发表时间:**2017(NIPS 2017) **文章要点:**这篇文章提出了一个叫Value Prediction Network (VPN)的网络结构用来预测未来的value,而不是未来的观测,然后来做model based RL。虽然文章强调说plan without predicting 阅读全文
posted @ 2021-12-21 11:10 initial_h 阅读(90) 评论(0) 推荐(0) 编辑