posted @ 2018-07-26 14:39 冬眠包子 阅读(1114) 评论(0) 推荐(0) 编辑
摘要:
蒙特卡洛树搜索: MCTS使用蒙特卡洛模拟来估计每个节点的价值. 其默认策略为贪婪算法, 即每次选择价值最高的节点进行模拟, 在每次模拟得到结果后, 将结果反馈回每个上级节点, 更新节点价值. 通常来讲, 每个访问到的节点都会加入到树中, 实际上为了节省内存每次只加入一个子节点, 可以通过对旧节点剪 阅读全文
posted @ 2018-07-26 14:39 冬眠包子 阅读(1114) 评论(0) 推荐(0) 编辑
Copyright © 2024 冬眠包子
Powered by .NET 9.0 on Kubernetes