COMBINING Q-LEARNING AND SEARCH WITH AMORTIZED VALUE ESTIMATES


发表时间:2020(ICLR 2020)
文章要点:这篇文章提出Search with Amortized Value Estimates(SAVE)算法,将Q-learning和MCTS结合起来。用Q value来指导MCTS,然后用得到的Q-estimates来更新Q value。在search budgets很小的情况下也能取得很好的效果。
首先planning可以一定程度上避免选择次优动作,从而取得更好的效果。但是另一方面,这也导致buffer里面关于次优动作的信息就很少,导致这些次优动作在更新Q function的时候就不会被downweighed,那么Q value的估计也会不准。作者的思路就是用Q function来指导MCTS,然后更新的时候除了原始Q learning的更新,还把search里面得到的Q value也拿来更新。
Q在MCTS里面的用法就是放到UCT里面作为初始估计

这里相当于

然后simulation之后会更新

然后就有一个在树里面的Q的估计

把这个东西也放到buffer里用来更新Q。所以作者搞了一个amortization loss来使得Q的估计和MCTS估计的Q一样

再和Q learning的loss合到一起

总结:感觉是挺合理的做法,效果肯定比model free强,但是一个问题是在测试的时候也必须MCTS,如果直接用Q来选动作的话,效果并不好,这中间有个GAP。要是能消除或者减小这个GAP,就是说Q已经真的学到了MCTS的Q了,不需要在测试的时候再用MCTS了,说服力应该更强。感觉这个点值得做一做,毕竟训的时候我不管你咋做,测试的时候必须要快速决策,加上MCTS还是慢了。另外,这里面如果对着MCTS做监督训练,那Q learning就弱了,这个贝尔曼更新的原理就弱了,这其实在理论上有点不合逻辑。
疑问:其实我也开始有点怀疑DQN到底是不是在最小化贝尔曼误差了。。。

posted @ 2023-03-06 01:03  initial_h  阅读(67)  评论(0编辑  收藏  举报