摘要: **发表时间:**2021(ICML 2021) **文章要点:**之前PUCT的MCTS收敛速度是多项式的,这篇文章提出了凸正则化的方式将收敛速度提高到了指数级。主要修改的是PUCT这个采样策略,以及Q value的更新方式。通过Legendre-Fenchel transform把学Q变成了学一 阅读全文
posted @ 2021-07-29 23:54 initial_h 阅读(109) 评论(0) 推荐(0) 编辑