摘要: **发表时间:**2006(ECML 2006) **文章要点:**这篇文章提出了UCT算法,把bandit的UCB1算法用到Monte-Carlo planning里面。 首先假设我们有一个generative model,就是我给一个状态和动作,就告诉我下一个状态和reward。有了这个mode 阅读全文
posted @ 2023-03-04 00:18 initial_h 阅读(104) 评论(0) 推荐(0) 编辑