摘要:
**发表时间:**2020(ICLR 2020) **文章要点:**这篇文章提出Search with Amortized Value Estimates(SAVE)算法,将Q-learning和MCTS结合起来。用Q value来指导MCTS,然后用得到的Q-estimates来更新Q value 阅读全文
摘要:
**发表时间:**2016(ICLR 2016) **文章要点:**这篇文章考虑的情形是从一个RL的policy网络提取策略,迁移到另一个policy网络。其实就是知识迁移(Distillation is a method to transfer knowledge from a teacher m 阅读全文