2023 年 3月 4 日随笔档案 - initial_h

2023年3月4日

摘要： **发表时间：**2006（ECML 2006） **文章要点：**这篇文章提出了UCT算法，把bandit的UCB1算法用到Monte-Carlo planning里面。首先假设我们有一个generative model，就是我给一个状态和动作，就告诉我下一个状态和reward。有了这个mode 阅读全文

posted @ 2023-03-04 00:18 initial_h 阅读(104) 评论(0) 推荐(0) 编辑

initial_h

https://github.com/initial-h

公告