矩阵博弈中的混合策略求解

合集 - 数学(48)

1.分类算法2020-02-26 2.数值计算方法2020-08-10 3.离散数学4 组合数学2020-08-28 4.离散数学3 代数结构2020-08-28 5.离散数学2 集合论2020-08-28 6.离散数学1 数理逻辑2020-08-28 7.离散数学6 初等数论2020-08-28 8.高等代数2 向量组2020-08-28 9.高等代数1 矩阵2020-08-28 10.高等数学2 一元函数微分学2020-08-28 11.算法导论快速排序算法学习2020-08-28 12.高等数学3 一元函数积分学2020-08-28 13.高等数学1 函数极限连续2020-08-28 14.离散数学5 图论2020-08-28 15.我理解的高等代数——1从方格纸到线性空间2022-04-03 16.3 逻辑回归2021-12-31 17.朴素贝叶斯2021-12-31 18.知识扩展4——拉格朗日乘数，KKT条件，对偶问题2021-11-20 19.知识扩展3——广义线性模型GLM2021-11-16 20.知识扩展2——熵，KL散度，交叉熵，JS散度，Wasserstein 距离（EarthMover距离）2021-11-16 21.知识扩展1——最大似然估计2021-11-16 22.线性回归2021-11-01 23.决策树机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝2021-11-01 24.模式识别第一章概论2020-09-07 25.高等代数9 欧几里得空间2020-09-02 26.高等代数7 线性变换2020-08-28 27.高等代数6 线性空间2020-08-28 28.高等代数5 二次型2020-08-28 29.高等代数4 线性方程组2020-08-28 30.高等代数3 行列式2020-08-28

31.矩阵博弈中的混合策略求解2023-02-22

32.博弈论与强化学习实战——CFR算法——剪刀石头布2022-12-06 33.博弈论与强化学习——— 基础2 马尔科夫博弈2022-11-20 34.博弈论与强化学习——基础1 扩展型博弈2022-11-20 35.博弈论与强化学习算法一 MinimaxQ, NashQ ,FFQ2022-11-20 36.路径规划算法2022-11-20 37.博弈论算法 CFR算法2022-11-20 38.概率论3 随机变量及其分布2022-04-03 39.概率论4 随机变量的数字特征2022-04-03 40.频率与概率2022-04-03 41.概率论1 随机试验与独立性2022-04-03 42.扩展——向量求导2022-04-03 43.扩展—— 向量矩阵张量2022-04-03 44.我理解的高等代数3——线性变换2022-04-03 45.我理解的高等代数——2坐标系变换与矩阵2022-04-03 46.集合论1基数—无穷集合元素的个数03-08 47.集合论2序数——从自然数系统到无穷集合的排序03-08 48.集合论3 公理化—从罗素悖论到集合的公理化定义03-08

矩阵博弈中的混合策略求解

矩阵博弈中的混合策略求解

我们已经看到, 矩阵博弈可能没有鞍点或纯策略纳什均衡。然而, 当我们允许混合策略时, 均衡必定存在。令 $x=\left(x_1, \cdots, x_m\right)$ 表示行参与人的混合策略, $y=\left(y_1, \cdots, y_n\right)$ 为列参与人的混合策略。注意, $a_{i j}$ 是当行参与人以概率 1 选择第 $i$ 行且列参与人以概率 1 选择第 $j$ 列时行参与人的收益。此时, 列参与人的收益为 $-a_{i j}$ 。在伴随上述混合策略 $x$ 和 $y$ 的情形下, 行参与人的期望收益:

= u_{1} (x, y) = \sum_{i = 1}^{m} \sum_{j = 1}^{n} x_{i} y_{j} a_{i j} = x A y

$=u_1(x, y)=\sum_{i=1}^m \sum_{j=1}^n x_i y_j a_{i j}=x A y$

其中 $x=\left(x_1, \cdots, x_m\right) ; y=\left(y_1, \cdots, y_n\right) ; A=\left[a_{i j}\right]$ 。在上面的表达式中, 我们稍微滥用了符号, 因为我们本来应该用向量 $y$ 的转置 (即 $y^{\mathrm{T}}$ ) 但用了 $y$ 本身 (出于简单目的, 我们在本章都这么做, 因为这不会导致混淆)。此时, 列参与人的期望收益为 $-x A y$ 。当行参与人选择 $x$ 时, 他保证自己的期望收益为

min_{y \in Δ (S_{2})} x A y

$\min _{y \in \Delta\left(S_2\right)} x A y$

因此, 行参与人应该选择使得上述收益最大的混合策略 $x$ 。也就是说, 他应该选择 $x$ 使得

max_{x \in Δ (S_{1}) y \in Δ (S_{2})} min_{x} x A y

$\max _{x \in \Delta\left(S_1\right) y \in \Delta\left(S_2\right)} \min _x x A y$

换句话说, 行参与人的最优策略是最大最小化 (maxminimization) 策略。注意, 这里隐含地假设不管行参与人怎么选择, 列参与交与都会选择对他（行参与人）最不利的策略。行参与人在这样的背景下选择最优策略。行参与人选择的这种策略也称为行参与人的安全策略。

类似地, 当列参与人选择 $y$ 时，他保证自己的收益

\begin{aligned} = min_{x \in Δ (S_{1})} - x A y \\ = - max_{x \in Δ (S_{1})} x A y \end{aligned}

$\begin{aligned} & =\min _{x \in \Delta\left(S_{1}\right)}-x A y \\ & =-\max _{x \in \Delta\left(S_{1}\right)} x A y \end{aligned}$

也就是说, 列参与人保证自己的损失不超过

max_{x \in Δ (S_{1})} x A y

$\max _{x \in \Delta\left(S_{1}\right)} x A y$

列参与人的最优策略应该使这个损失最小，即

min_{y \in Δ (S_{2}) x \in Δ (S_{1})} max x A y

$\min _{y \in \Delta\left(S_{2}\right) x \in \Delta\left(S_{1}\right)} \max x A y$

这称为最小最大化 (minmaximization)。列参与人的这种策略也称为列参与人的安全策略。

我们现在陈述和证明一个重要引理, 它断言若行参与人选择 $x$ , 则在列参与人的最优反应策略 $y$ 中至少存在一个纯策略。

引理 $9.1$

给定矩阵博恋 $A$ 以及混合策略 $x=\left(x_{1}, \cdots, x_{m}\right)$ 和 $y=\left(y_{1}, \cdots, y_{n}\right)$ ,

min_{y \in Δ (S_{2})} x A y = min_{j} \sum_{i = 1}^{m} a_{i j} x_{i}

$\min _{y \in \Delta\left(S_{2}\right)} x A y=\min _{j} \sum_{i=1}^{m} a_{i j} x_{i}$

证明：对于给定的 $j$ ,

\sum_{i = 1}^{m} a_{i j} x_{i}

$\sum_{i=1}^{m} a_{i j} x_{i}$

这个加和给出了当行参与人选择 $x=\left(x_{1}, \cdots, x_{m}\right)$ 且列参与人选择纯策略 $j$ 时, 行参与人的收益。因此,

min_{j} \sum_{i = 1}^{m} a_{i j} x_{i}

$\min _{j} \sum_{i=1}^{m} a_{i j} x_{i}$

给出了当行参与人选择 $x$ 但列参与人能自由选择任何纯策略时行参与人的最小收益。由于纯策略是混合策略的一种特殊情形, 我们有

min_{j} \sum_{i = 1}^{m} a_{i j} x_{i} ⩾ min_{y \in Δ (S_{2})} x A y

$\min _{j} \sum_{i=1}^{m} a_{i j} x_{i} \geqslant \min _{y \in \Delta\left(S_{2}\right)} x A y$

另一方面,

x A y = \sum_{j = 1}^{n} y_{j} (\sum_{i = 1}^{m} a_{i j} x_{i}) ⩾ \sum_{j = 1}^{n} y_{j} (min_{j} \sum_{i = 1}^{m} a_{i j} x_{i}) = min_{j} \sum_{i = 1}^{m} a_{i j} x_{i} (因为 \sum_{j = 1}^{n} y_{j} = 1)

$x A y=\sum_{j=1}^{n} y_{j}\left(\sum_{i=1}^{m} a_{i j} x_{i}\right) \geqslant \sum_{j=1}^{n} y_{j}\left(\min _{j} \sum_{i=1}^{m} a_{i j} x_{i}\right)=\min _{j} \sum_{i=1}^{m} a_{i j} x_{i}\left(\text { 因为 } \sum_{j=1}^{n} y_{j}=1\right. \text { ) }$

因此, 我们有:

x A y ⩾ min_{j} \sum_{i = 1}^{m} a_{i j} x_{i} \forall x \in Δ (S_{1}), \forall y \in Δ (S_{2})

$x A y \geqslant \min _{j} \sum_{i=1}^{m} a_{i j} x_{i} \quad \forall x \in \Delta\left(S_{1}\right), \forall y \in \Delta\left(S_{2}\right)$

这意味着

min_{y \in Δ (S_{2})} x A y ⩾ min_{j} \sum_{i = 1}^{m} a_{i j} x_{i}

$\min _{y \in \Delta\left(S_{2}\right)} x A y \geqslant \min _{j} \sum_{i=1}^{m} a_{i j} x_{i}$

根据式 $(9.1)$ 和式 $(9.2)$ , 我们有

min_{y \in Δ (S_{2})} x A y = min_{j} \sum_{i = 1}^{m} a_{i j} x_{i}

$\min _{y \in \Delta\left(S_{2}\right)} x A y=\min _{j} \sum_{i=1}^{m} a_{i j} x_{i}$

这样, 我们就完成了这个引理的证明。

作为上面引理的一个直接推论, 可以证明

max_{x \in Δ (S_{1})} x A y = max_{i} \sum_{j = 1}^{n} a_{i j} y_{j}

$\max _{x \in \Delta\left(S_{1}\right)} x A y=\max _{i} \sum_{j=1}^{n} a_{i j} y_{j}$

使用上面的结果, 我们可以将行参与人以及列参与人的最优化问题描述如下。

行参与人的最优化问题 (最大最小化)

行参与人面对的最优化问题可以表示为

\begin{aligned} max min_{j} \sum_{i = 1}^{m} a_{i j} x_{i} \\ s. t. \\ \sum_{i = 1}^{m} x_{i} = 1 \\ x_{i} ⩾ 0, i = 1, \dots, m \end{aligned}

$\begin{aligned} &\max \min _{j} \sum_{i=1}^{m} a_{i j} x_{i} \\ & \text { s. t.} \\ & \sum_{i=1}^{m} x_{i}=1 \\ & x_{i} \geqslant 0, i=1, \cdots, m \end{aligned}$

将上面这个问题称为问题 $P_{1}$ 。注意, 这个问题可以简练地表示为

max_{x \in Δ (S_{1})} min_{y \in Δ (S_{2})} x A y_{\circ}

$\max _{x \in \Delta\left(S_{1}\right)} \min _{y \in \Delta\left(S_{2}\right)} x A y_{\circ}$

列参与人的最优化问题 (最小最大化)

列参与人面对的最优化问题可以表示为

\begin{aligned} min max_{i} \sum_{j = 1}^{n} a_{i j} y_{j} \\ s. t. \\ \sum_{j = 1}^{n} y_{j} = 1 \\ y_{j} ⩾ 0, j = 1, \dots, n \end{aligned}

$\begin{aligned} & \min \max _{i} \sum_{j=1}^{n} a_{i j} y_{j} \\ & \text { s. t. } \\ & \qquad \sum_{j=1}^{n} y_{j}=1 \\ & y_{j} \geqslant 0, j=1, \cdots, n \end{aligned}$

将上面的问题称为问题 $P_{2}$ 。注意, 这个问题可以简练地写为

min_{y \in Δ (S_{2}) x \in Δ (S_{1})} max x A y

$\min _{y \in \Delta\left(S_{2}\right) x \in \Delta\left(S_{1}\right)} \max x A y$

下列命题说明问题 $P_{1}$ 和 $P_{2}$ 分别等价于适当的线性规划 (linear program, LP)。

命题 $9.3$

问题 $P_{1}$ 等价于下列线性规划 (我们将其称为线性规划 $L P_{1}$ ):

\begin{aligned} max z \\ s. t. \\ z - \sum_{i = 1}^{m} a_{i j} x_{i} ⩽ 0, j = 1, \dots, n \\ \sum_{i = 1}^{m} x_{i} = 1 \\ x_{i} ⩾ 0, i = 1, \dots, m \end{aligned}

$\begin{aligned} & \max z \\ & \text { s. t.} \\ & z-\sum_{i=1}^{m} a_{i j} x_{i} \leqslant 0, j=1, \cdots, n \\ & \sum_{i=1}^{m} x_{i}=1 \\ & x_{i} \geqslant 0, i=1, \cdots, m \end{aligned}$

证明：注意, $P_{1}$ 是一个最大化问题, 因此, 我们考察约束条件

z - \sum_{i = 1}^{m} a_{i j} x_{i} ⩽ 0, j = 1, \dots, n

$z-\sum_{i=1}^{m} a_{i j} x_{i} \leqslant 0, j=1, \cdots, n$

任何最优解 $\left(z^{*}, x^{*}\right)$ 将满足上述 $n$ 个不等式中的一个。也就是,

z^{*} = \sum_{i = 1}^{m} a_{i j} x_{i}^{*} 对于某个 j \in {1, \dots, n}

$z^{*}=\sum_{i=1}^{m} a_{i j} x_{i}^{*} \quad \text { 对于某个 } j \in\{1, \cdots, n\}$

令 $j^{*}$ 就是满足上式的 $j$ 值。于是

z^{*} = \sum_{i = 1}^{m} a_{i j}^{*} x_{i}^{*}

$z^{*}=\sum_{i=1}^{m} a_{i j}{ }^{*} x_{i}^{*}$

由于 $z^{*}$ 是线性规划 $L P_{1}$ 的一个可行解, 我们有

\sum_{i = 1}^{m} a_{i j}^{*} x_{i}^{*} ⩽ \sum_{i = 1}^{m} a_{i j} x_{i}^{*} \forall j = 1, \dots, n

$\sum_{i=1}^{m} a_{i j}{ }^{*} x_{i}^{*} \leqslant \sum_{i=1}^{m} a_{i j} x_{i}^{*} \quad \forall j=1, \cdots, n$

这意味着

\sum_{i = 1}^{m} a_{i j}^{*} x_{i}^{*} = min_{j} \sum_{i = 1}^{m} a_{i j} x_{i}^{*}

$\sum_{i=1}^{m} a_{i j}{ }^{*} x_{i}^{*}=\min _{j} \sum_{i=1}^{m} a_{i j} x_{i}^{*}$

如若不然, 我们有

z^{*} < \sum_{i = 1}^{m} a_{i j} x_{i} \forall j = 1, \dots, n

$z^{*}<\sum_{i=1}^{m} a_{i j} x_{i} \quad \forall j=1, \cdots, n$

因此, 下列两个线性规划分别描述了行参与人与列参与人面对的最优化问题。

行参与人的线性规划 $\left(L P_{1}\right)$

\begin{aligned} max z \\ s. t. \\ z - \sum_{i = 1}^{m} a_{i j} x_{i} ⩽ 0, j = 1, \dots, n \\ \sum_{i = 1}^{m} x_{i} ≐ 1 \\ x_{i} ⩾ 0 \forall i = 1, \dots, m \end{aligned}

$\begin{aligned} \max z \\ & \text { s. t. } \\ & z-\sum_{i=1}^{m} a_{i j} x_{i} \leqslant 0, j=1, \cdots, n \\ & \sum_{i=1}^{m} x_{i} \doteq 1 \\ & x_{i} \geqslant 0 \quad \forall i=1, \cdots, m \end{aligned}$

列参与人的线性规划 $\left(\boldsymbol{L P _ { 2 }}\right)$

\begin{aligned} min w \\ s. t. \\ w - \sum_{j = 1}^{n} a_{i j} y_{j} ⩾ 0, i = 1, \dots, m \\ \sum_{j = 1}^{n} y_{j} = 1 \\ y_{j} ⩾ 0 \forall j = 1, \dots, n \end{aligned}

$\begin{aligned} \min w \\ & \text { s. t. } \\ & w-\sum_{j=1}^{n} a_{i j} y_{j} \geqslant 0, i=1, \cdots, m \\ & \sum_{j=1}^{n} y_{j}=1 \\ & y_{j} \geqslant 0 \quad \forall j=1, \cdots, n \end{aligned}$

例 $9.8$ (石头剪刀布博弈)

对于石头剪刀布博弈, 回忆一下, 行参与人的收益矩阵为

A = [\begin{array}{rrr} 0 & - 1 & 1 \\ 1 & 0 & - 1 \\ - 1 & 1 & 0 \end{array}]

$A=\left[\begin{array}{rrr} 0 & -1 & 1 \\ 1 & 0 & -1 \\ -1 & 1 & 0 \end{array}\right]$

行参与人的最优化问题 $P_{1}$ 为:

\begin{aligned} max min {x_{2} - x_{3}, - x_{1} + x_{3}, x_{1} - x_{2}} \\ s. t. \\ x_{1} + x_{2} + x_{3} = 1 \\ x_{1} ⩾ 0; x_{2} ⩾ 0; x_{3} ⩾ 0 \end{aligned}

$\begin{aligned} & \max \min \left\{x_{2}-x_{3},-x_{1}+x_{3}, x_{1}-x_{2}\right\} \\ & \text { s. t. } \\ & x_{1}+x_{2}+x_{3}=1 \\ & x_{1} \geqslant 0 ; x_{2} \geqslant 0 ; x_{3} \geqslant 0 \end{aligned}$

上面的这个问题等价于线性规划 $L P_{1}$ :

\begin{aligned} max z \\ s. t. \\ z ⩽ x_{2} - x_{3}; z ⩽ - x_{1} + x_{3}; z ⩽ x_{1} - x_{2} \\ x_{1} + x_{2} + x_{3} = 1; x_{1} ⩾ 0; x_{2} ⩾ 0; x_{3} ⩾ 0 \end{aligned}

$\begin{aligned} & \max z \\ & \text { s. t. } \\ & z \leqslant x_{2}-x_{3} ; z \leqslant-x_{1}+x_{3} ; z \leqslant x_{1}-x_{2} \\ & x_{1}+x_{2}+x_{3}=1 ; x_{1} \geqslant 0 ; x_{2} \geqslant 0 ; x_{3} \geqslant 0 \end{aligned}$

列参与人的最优化问题 $P_{2}$ 为

\begin{aligned} min max {- y_{2} + y_{3}, y_{1} - y_{3}, - y_{1} + y_{2}} \\ s. t. \\ y_{1} + y_{2} + y_{3} = 1 \\ y_{1} ⩾ 0; y_{2} ⩾ 0; y_{3} ⩾ 0 \end{aligned}

$\begin{aligned} &\min \max \left\{-y_{2}+y_{3}, y_{1}-y_{3},-y_{1}+y_{2}\right\} \\ & \text { s. t. } \\ & y_{1}+y_{2}+y_{3}=1 \\ & y_{1} \geqslant 0 ; y_{2} \geqslant 0 ; y_{3} \geqslant 0 \end{aligned}$

上面这个问题等价于线性规划 $L P_{2}$ :

\begin{aligned} min w \\ s. t. \\ w ⩾ - y_{2} + y_{3}; w ⩾ y_{1} - y_{3}; w ⩾ - y_{1} + y_{2} \\ y_{1} + y_{2} + y_{3} = 1; y_{1} ⩾ 0; y_{2} ⩾ 0; y_{3} ⩾ 0 \end{aligned}

$\begin{aligned} \text { min } w \\ & \text { s. t. } \\ & w \geqslant-y_{2}+y_{3} ; w \geqslant y_{1}-y_{3} ; w \geqslant-y_{1}+y_{2} \\ & y_{1}+y_{2}+y_{3}=1 ; y_{1} \geqslant 0 ; y_{2} \geqslant 0 ; y_{3} \geqslant 0 \end{aligned}$

上面的线性规划问题使我们能够计算混合策略均衡。

参考文献

博弈论与机制设计

Game Theory and Mechanism Design Y.Narahari

posted @ 2023-02-22 21:25 英飞阅读(866) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 博弈论与强化学习——基础1 扩展型博弈

· 博弈论算法 CFR算法

· 对策论——矩阵对策求解理论（三）

· 对策论——矩阵对策求解示例（四）

· 对策论——矩阵对策要素、结构和模型精解

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

公告

昵称：英飞
园龄： 5年
粉丝： 65
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

英飞

卧龙岗闲散人

矩阵博弈中的混合策略求解

矩阵博弈中的混合策略求解

引理 $9.1$

行参与人的最优化问题 (最大最小化)

列参与人的最优化问题 (最小最大化)

命题 $9.3$

行参与人的线性规划 $\left(L P_{1}\right)$

列参与人的线性规划 $\left(\boldsymbol{L P _ { 2 }}\right)$

例 $9.8$ (石头剪刀布博弈)

参考文献

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

合集 (2)

随笔分类 (258)

随笔档案 (124)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

英飞

卧龙岗闲散人

矩阵博弈中的混合策略求解

矩阵博弈中的混合策略求解

引理 9.19.19.1

行参与人的最优化问题 (最大最小化)

列参与人的最优化问题 (最小最大化)

命题 9.39.39.3

行参与人的线性规划 (LP1)(LP1)\left(L P_{1}\right)

列参与人的线性规划 (LP2)(LP2)\left(\boldsymbol{L P _ { 2 }}\right)

例 9.89.89.8 (石头剪刀布博弈)

参考文献

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

合集 (2)

随笔分类 (258)

随笔档案 (124)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

引理 $9.1$

命题 $9.3$

行参与人的线性规划 $\left(L P_{1}\right)$

列参与人的线性规划 $\left(\boldsymbol{L P _ { 2 }}\right)$

例 $9.8$ (石头剪刀布博弈)