Think Too Fast Nor Too Slow: The Computational Trade-off Between Planning And Reinforcement Learning
摘要:
**发表时间:**2020(ICAPS: PRL 2020) **文章要点:**这篇文章主要探究planning和learning的算力的trade-off,得出的结论是既不能planning太多,也不能planning太少。 具体的,作者先指出了一类叫multi-step approximate 阅读全文
摘要:
**发表时间:**2018(ICAPS 2018 workshop Heuristics and Search for Domain-independent Planning (HSDIP)) **文章要点:**这篇文章主要就是做实验看了看几种tree search方法在Atari上的效果如何,里面 阅读全文
摘要:
**发表时间:**2014(NIPS 2014) **文章要点:**这篇文章主要是测试了Monte-Carlo Tree Search在Atari上的效果,不过并不是结合强化做的,而是先用tree search收集样本,再用神经网络拟合数据训成一个Q网络或者policy网络。得出的结论是比DQN效果 阅读全文