随笔分类 - 博弈论

博弈论相关知识

摘要：矩阵博弈中的混合策略求解我们已经看到, 矩阵博弈可能没有鞍点或纯策略纳什均衡。然而, 当我们允许混合策略时, 均衡必定存在。令

x = (x_{1}, \dots, x_{m})

$x=\left(x_1, \cdots, x_m\right)$ 表示行参与人的混合策略,

y = (y_{1}, \dots, y_{n})

$y=\left(y_1, \cdots, y_n\right)$ 为列参与阅读全文

posted @ 2023-02-22 21:25 英飞阅读(866) 评论(1) 推荐(0) 编辑

博弈论与强化学习实战——CFR算法——剪刀石头布

摘要：博弈论与强化学习实战——CFR算法——剪刀石头布感谢：浅谈德州扑克AI核心算法：CFR - 掘金 (juejin.cn) 虚拟遗憾最小化算法（CFR）基础知识详解 - 知乎 (zhihu.com) 一游戏介绍有两个参与者，每个参与者有三个可选动作剪刀石头布，分别用0，1，2表示奖励：阅读全文

posted @ 2022-12-06 15:28 英飞阅读(1867) 评论(0) 推荐(1) 编辑

博弈论与强化学习——— 基础2 马尔科夫博弈

摘要：内容稍后就来阅读全文

posted @ 2022-11-20 19:09 英飞阅读(425) 评论(0) 推荐(0) 编辑

博弈论与强化学习——基础1 扩展型博弈

摘要：博弈论与强化学习——基础1 扩展型博弈表示形式—— 博弈树使用树状图来表示行动的次序和执行动作时的信息状态图中有两个参与者，进行了两个阶段的博弈结点：表示博弈的状态，根节点：博弈的起点，玩家进行决策。关于博弈怎么开始，博弈的顺序，可以有预定的顺序也可以通过掷色子、投硬币决定等。非叶子结阅读全文

posted @ 2022-11-20 19:08 英飞阅读(779) 评论(0) 推荐(0) 编辑

博弈论与强化学习算法一 MinimaxQ, NashQ ,FFQ

摘要：博弈解与强化学习二基础算法 2.1 引言一个随机博弈可以看成是一个多智能体强化学习过程,但其实这两个概念不能完全等价，随机博弈中假定每个状态的奖励矩阵是已知的，不需要学习。而多智能体强化学习则是通过与环境的不断交互来学习每个状态的奖励值函数，再通过这些奖励值函数来学习得到最优纳什策略。通常情况阅读全文

posted @ 2022-11-20 18:57 英飞阅读(3477) 评论(0) 推荐(0) 编辑

博弈论算法 CFR算法

摘要：扩展性博弈与 CFR算法 CFR算法的发展算法 | 算法 | 鲁棒采样变体 | 神经网络变体 | 后悔值 | 后悔值匹配 | 策略更新 | 收敛速度 | 解概念 | 发表 | 时间 | | | | | | | | | | | | | CFR：Regret Minimization in Game 阅读全文

posted @ 2022-11-20 18:47 英飞阅读(717) 评论(0) 推荐(0) 编辑

公告

昵称：英飞
园龄： 5年
粉丝： 65
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

英飞

卧龙岗闲散人

随笔分类 - 博弈论

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

合集 (2)

随笔分类 (258)

随笔档案 (124)

阅读排行榜

评论排行榜

推荐排行榜

最新评论