2018 年 1月 17 日随笔档案 - 彼岸花杀是条狗

2018年1月17日

摘要：简介最近AlphaGo Zero又火了一把，paper和各种分析文章都有了，有人看到了说不就是普通的Reinforcement learning吗，有人还没理解估值网络、快速下子网络的作用就放弃了。实际上，围棋是一种零和、信息对称的combinatorial game，因此AlphaGo用的是蒙特卡罗树搜索算法的一种，在计算树节点Q值时使用了ResNet等神经网络模型，只是在论文中也归类为增强学习... 阅读全文

posted @ 2018-01-17 16:07 彼岸花杀是条狗阅读(42582) 评论(0) 推荐(3) 编辑

yif25

公告