摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章提出Search with Amortized Value Estimates(SAVE)算法,将Q-learning和MCTS结合起来。用Q value来指导MCTS,然后用得到的Q-estimates来更新Q value 阅读全文
posted @ 2023-03-06 01:03 initial_h 阅读(67) 评论(0) 推荐(0) 编辑