01 2022 档案

摘要:浅谈德州扑克AI核心算法:CFR本文首发于行者AI 引言 自2017年AlphaGo打败世界围棋冠军柯洁后,人工智能彻底进入大众视野,一时间棋牌类的AI在人工智能界掀起了一股大风。其实早在AlphaGo之前,人们就对棋牌类的人工智能发起了挑战,从简单的跳棋、五子棋,到更加复杂的中国象棋、国际象棋,以及最近非常热门的围棋和德州扑克, 阅读全文
posted @ 2022-01-26 16:33 行者AI 阅读(2391) 评论(0) 推荐(0) 编辑
摘要:详解策略梯度算法 引言 根据智能体学习的不同,可将其分为Value-based方法、Policy-based方法以及Actor-Critic方法。之前我们介绍的Q-learning、Saras和DQN都是基于价值去学习,虽然这种强化学习方法在很多领域都获得较多的应用,但是它的局限性也是比较明显。首先 阅读全文
posted @ 2022-01-20 16:22 行者AI 阅读(1143) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示