随笔分类 -  博弈论

博弈论相关知识
摘要:矩阵博弈中的混合策略求解 我们已经看到, 矩阵博弈可能没有鞍点或纯策略纳什均衡。然而, 当我们允许混合策略时, 均衡必定存在。令 x=(x1,,xm) 表示行参与人的混合策略, y=(y1,,yn) 为列参与 阅读全文
posted @ 2023-02-22 21:25 英飞 阅读(866) 评论(1) 推荐(0) 编辑
摘要:博弈论与强化学习实战——CFR算法——剪刀石头布 感谢: 浅谈德州扑克AI核心算法:CFR - 掘金 (juejin.cn) 虚拟遗憾最小化算法(CFR)基础知识详解 - 知乎 (zhihu.com) 一 游戏介绍 有两个参与者, 每个参与者有三个可选动作 剪刀石头布 ,分别用0,1,2表示 奖励: 阅读全文
posted @ 2022-12-06 15:28 英飞 阅读(1867) 评论(0) 推荐(1) 编辑
摘要:内容稍后就来 阅读全文
posted @ 2022-11-20 19:09 英飞 阅读(425) 评论(0) 推荐(0) 编辑
摘要:博弈论与强化学习——基础1 扩展型博弈 表示形式—— 博弈树 使用树状图来表示行动的次序和执行动作时的信息状态 图中有两个参与者 ,进行了两个阶段的博弈 结点:表示博弈的状态, 根节点:博弈的起点,玩家进行决策。关于博弈怎么开始,博弈的顺序,可以有预定的顺序也可以通过掷色子、投硬币决定等。 非叶子结 阅读全文
posted @ 2022-11-20 19:08 英飞 阅读(779) 评论(0) 推荐(0) 编辑
摘要:博弈解与强化学习 二 基础算法 2.1 引言 一个随机博弈可以看成是一个多智能体强化学习过程,但其实这两个概念不能完全等价,随机博弈中假定每个状态的奖励矩阵是已知的,不需要学习。而多智能体强化学习则是通过与环境的不断交互来学习每个状态的奖励值函数,再通过这些奖励值函数来学习得到最优纳什策略。通常情况 阅读全文
posted @ 2022-11-20 18:57 英飞 阅读(3477) 评论(0) 推荐(0) 编辑
摘要:扩展性博弈 与 CFR算法 CFR算法的发展 算法 | 算法 | 鲁棒采样变体 | 神经网络变体 | 后悔值 | 后悔值匹配 | 策略更新 | 收敛速度 | 解概念 | 发表 | 时间 | | | | | | | | | | | | | CFR:Regret Minimization in Game 阅读全文
posted @ 2022-11-20 18:47 英飞 阅读(717) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示