矩阵对策是指处于利益竞争的两个关系主体,各自可选的策略有限,且在一局对策中双方得失和为零的现象,即要不成功,要不失败。对策中,一方真正成功的措施应该是,针对对方所采取的行为相应地制定有利于自己的应对策略,各方选择的策略必定是自己对对方策略预测的最佳反映。这里学习矩阵对策混合纳什均衡的求解方法。
一 超优原则
若矩阵\(A\) 中第\(i\)行元素均不小于第\(j\) 行对应元素,则称局中人\(I\) 的纯策略\(\alpha_i\) 超优于\(\alpha_j\)。推广一下,超优者也可以是若干纯策略的线性组合。
如果局中人\(I\) 的纯策略\(\alpha_i\) 被其它纯策略或若干纯策略的线性组合超优时,可以将\(\alpha_i\)删去而不影响结果,称为超优原则。超优原则在一些情况下可以简化计算。
超优原则揭示了局中人的占优策略和劣策略:
占优策略:是指不论对手选择什么,自己的某个策略都不比其他策略差的策略。如果自己的某个策略严格强于(收益大于)任何其他策略,那么该策略还被称为严格占优策略。劣策略:是指不论对手选择什么,自己都不会选择的策略。对于劣策略。可以直接剔除以简化博弈,如果剔除到最后只留下唯一一个策略组合,那么这个策略组合就是我们说的重复剔除严格劣策略均衡。如果存在重复剔除严格劣策略均衡,那么我们说这个博弈是重复剔除劣策略可解的。
例1 设矩阵对策的收益矩阵为A,试简化这个博弈。
\[A=
\begin{aligned}
& \begin{array}{lllll}
&& \beta_1&\beta_2&\beta_3&\beta_4&\beta_5
\end{array} \\
& \begin{array}{l}
\alpha_1 \\
\alpha_2 \\
\alpha_3\\
\alpha_4 \\
\alpha_5
\end{array}\left[\begin{array}{lll}
3 & 2 & 0 & 3 & 0\\
5 & 0 & 2 & 5 & 9\\
7 & 3 & 9 & 5 & 9\\
4 & 6 & 8 & 7 & 5.5\\
6 & 0 & 8 & 8 & 3
\end{array}\right] \\
&
\end{aligned}
\]
\[\begin{array}{l}
A \stackrel{\alpha_3优于\alpha_2,\alpha_4优于\alpha_1}{\longrightarrow} \left[ {\begin{array}{*{20}{c}}
7&3&9&5&9\\
4&6&8&7&{5.5}\\
6&0&8&8&3
\end{array}} \right] \stackrel{\beta_1优于\beta_3}{\longrightarrow} \begin{array}{*{20}{c}}
{\begin{array}{*{20}{c}}
{{\alpha _3}}\\
{{\alpha _4}}\\
{{\alpha _5}}
\end{array}\left[ {\begin{array}{*{20}{c}}
7&3&5&9\\
4&6&7&{5.5}\\
6&0&8&3
\end{array}} \right]}\\
{\begin{array}{*{20}{c}}
&&{{\beta _1}}&{{\beta _2}}&{{\beta _4}}&{{\beta _5}}
\end{array}}
\end{array}\\
\stackrel{\beta_2优于\beta_4}{\longrightarrow} \begin{array}{*{20}{c}}
{\begin{array}{*{20}{c}}
{{\alpha _3}}\\
{{\alpha _4}}\\
{{\alpha _5}}
\end{array}\left[ {\begin{array}{*{20}{c}}
7&3&9\\
4&6&{5.5}\\
6&0&3
\end{array}} \right]}\\
{\begin{array}{*{20}{c}}
{}&{{\beta _1}}&{{\beta _2}}&{{\beta _5}}
\end{array}}
\end{array} \stackrel{\alpha_3优于\alpha_5,\beta_1优于\beta_5}{\longrightarrow} \begin{array}{*{20}{c}}
{\begin{array}{*{20}{c}}
{{\alpha _3}}\\
{{\alpha _4}}
\end{array}\left[ {\begin{array}{*{20}{c}}
7&3\\
4&6
\end{array}} \right]}\\
{\begin{array}{*{20}{c}}
&&{{\beta _1}}&{{\beta _2}}
\end{array}}
\end{array}
\end{array}
\]
二 图解法求纳什均衡
图解法通过图示局中人的期望收益,寻找期望收益的最小或最大,最后求出纳什均衡的方法,其思想是最大最小定理4的图形应用,用于求解\(2×n\) 或\(m×2\)矩阵对策问题。对于矩阵对策问题,考虑局中人$ I$的混合策略 \((x,1−x)^T,x∈[0,1]\),过数轴上 \((0,0),(1,0)\) 分别作垂线一条,垂线上点的纵坐标值分别表示局中人 \(I\) 采取纯策略 \(α_1=(1,0)^T,α_2=(0,1)^T\)时,参与人\(I\) 的赢得值。
当局中人\(I\)选择每一策略 \((x,1−x)^T\) 时,他最少可能收入为所有局中人 \(II\) 选择确定的若干条直线在 \(x\) 处的纵坐标的最小者。要使得\(I\) 在最坏情况下的收入尽可能多,它应当使得直线 \(x\)与那若干条直线交出的点的纵坐标最小值最大。这转化成了一个非常直观的问题,作出若干条直线,列方程求解交点坐标,原问题得以解决。
同理可以考虑 \(m×2\)的矩阵对策问题,我们将局中人\(I\) 的\(m\)种纯策略作出直线,然后考虑每个横坐标处的交点最大值即可。先前提到的超优原则在图解法上的体现则更加直观,对于$ 2×n$ 矩阵对策问题,若 \(II\) 的纯策略 $\beta_i $超优于 \(\beta_j\),则 \(i\)所对应的线段始终不出现在\(j\) 的上方。此时它对求解最大的最小值没有任何影响,因此可以删去。当然,删去后虽然最优解的值不变,但可能会导致解集变小。
例2 设矩阵对策的收益矩阵A,求其混合纳什均衡。
\[A=
\begin{aligned}
& \begin{array}{lll}
& \beta_1 &\beta_2&\beta_3\
\end{array} \\
& \begin{array}{l}
\alpha_1 \\
\alpha_2
\end{array}\left[\begin{array}{lll}
2 & 3 & 11 \\
7 & 5 & 2
\end{array}\right] \\
\end{aligned}
\]
采用图解法求解,建立坐标系,设局中人\(I\)的混合策略为\((x,1-x)\),\(x \in [0,1]\):
- 在数轴上坐标为0和1的两点分别做两条垂线
- 画出局中人\(II\)的不同策略下局中人\(I\)的赢得线段
\[\beta_1: V_I^1=2\cdot x+7 \cdot (1-x)\\
\beta_2: V_I^2=3\cdot x+5 \cdot (1-x)\\
\beta_3: V_I^3=11\cdot x+2 \cdot (1-x)
\]
- 由于局中人\(I\)从最小可能收入中选择最大的一个,为局中人\(I\)的最优对策\(B_2\)
- 求解方程组可得最优混合纳什均衡的值,见图1。
图1 |
图2 |
 |
 |
联立过\(B_2\)点两条直线的方程组为
\[\begin{cases}
\ 3\cdot x+5 \cdot (1-x)=V_G\\
\ 11\cdot x+2 \cdot (1-x)=V_G
\end{cases}
\]
可得\(x=3/11,V_G=49/11\),所以局中人\(I\)的最优混合策略为
\[x^*=(3/11,8/11)^T
\]
同理,参看图2,可知局中人\(II\)的混合策略只由\(\beta_2,\beta_3\)构成,最优策略\(y^*=(0,9/11,2/11)\)。
三 线性方程组求纳什均衡
例3 硬币正反博弈:你正在图书馆枯坐,一位陌生美女主动过来和你搭讪,并要求和你一起玩个数学游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢?问题是,这个游戏公平吗?
每一种游戏依具其规则的不同会存在两种纳什均衡,一种是纯策略纳什均衡,也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面),使得每人都赚得最多或亏得最少;或者是混合策略纳什均衡,而在这个游戏中,便应该采用混合策略纳什均衡。我们在博弈中的收益矩阵为A,下面求其混合纳什均衡,得到各自的期望收益来看博弈是否公平。
\[A=
\begin{bmatrix}
3 & -2 \\
-2 & 1
\end{bmatrix}
\]
假设我们出正面的概率是\(x\),反面的概率是\(1-x\);美女出正面的概率是\(y\),反面的概率是\(1-y\)。为了使利益最大化,应该在对手出正面或反面的时候我们的收益都相等(不然在这个游戏中,对方可以改变正反面出现的概率让我们的期望收入减少),由此列出方程就是:
根据纳什均衡的定义,可求上面博弈两个局中人策略的最优反应,列表表示如下:
|
正面 |
反面 |
混合策略 |
正面 |
3 |
-2 |
\(x\) |
反面 |
-2 |
1 |
\(1-x\) |
混合策略 |
\(y\) |
\(1-y\) |
|
建立线性方程
\[3y + (-2)*(1-y)=(-2) * y + 1*( 1-y )
\]
解方程得\(y=3/8\)。
同样,美女的期望收益,列线性方程
\[-3x + 2( 1-x)= 2x+ (-1) * ( 1-x)
\]
解得\(x=3/8\)。
这样就得美女每次的期望收益则是$ 2(1-x)-3x= 1/8 $ 元,从而在双方都采取最优策略的情况下,平均每次美女赢1/8元。只要美女采取\((3/8,5/8)\)这个方案,不论你再采用什么方案,都是不能改变局面的。
四 最大最小定理求纳什均衡
\[\begin{array}{*{20}{c}}
{}&{Player\,C}&{Row\,\min ima}&{}&{}\\
{Player\,R}&{\begin{array}{*{20}{c}}
{}&{\begin{array}{*{20}{c}}
p&n&d
\end{array}}\\
{\begin{array}{*{20}{c}}
p\\
n\\
d
\end{array}}&{\left[ {\begin{array}{*{20}{c}}
{10}&{ - 5}&5\\
1&1&{ - 1}\\
0&{ - 10}&{ - 5}
\end{array}} \right]}
\end{array}}&{\begin{array}{*{20}{c}}
{ - 5}\\
{ - 1}\\
{ - 10}
\end{array}}& \leftarrow &{Max\,of\,the\,\min ima}\\
{Column\,\max ima}&{\begin{array}{*{20}{c}}
{}&{10\quad }&{1\,\;}&5
\end{array}}&{}&{}&{}\\
{}&{\begin{array}{*{20}{c}}
{}& \uparrow
\end{array}}&{}&{}&{}\\
{}&{Min\,of\,the\,\max ima}&{}&{}&{}
\end{array}
\]
例4 试用最大最小定理求矩阵博弈的纳什均衡
\[A=
\begin{aligned}
& \begin{array}{llll}
&& \beta_1 &\beta_2&\beta_3&\beta_4\
\end{array} \\
& \begin{array}{l}
\alpha_1 \\
\alpha_2 \\
\alpha_3\\
\alpha_4\\
\end{array}\left[\begin{array}{lll}
6 & 5 & 6 & 5 \\
1 & 4 & 2 & -1 \\
8 & 5 & 6 & 5 \\
0 & 2 & 6 & 2
\end{array}\right] \\
\end{aligned}
\]
\[A = \begin{array}{*{20}{c}}
{}&{}&{}&{}\\
{\begin{array}{*{20}{c}}
{\begin{array}{*{20}{c}}
{}&{}&{}&{}&&&&{\min }
\end{array}}\\
{\left[ {\begin{array}{*{20}{c}}
6&5&6&5\\
1&4&2&{ - 1}\\
8&5&7&5\\
0&2&6&2
\end{array}} \right]\begin{array}{*{20}{c}}
{{5^*}}\\
{ - 1}\\
{{5^*}}\\
0
\end{array}}\\
{\begin{array}{*{20}{c}}
{\max }&8&{{5^*}}&7&{{5^*}}
\end{array}}
\end{array}}&{\begin{array}{*{20}{c}}
{}\\
\leftarrow \\
{}\\
\leftarrow \\
{}
\end{array}}&{\begin{array}{*{20}{c}}
{}\\
{\max }\\
{}\\
{\max }\\
{}
\end{array}}&{}\\
{\begin{array}{*{20}{c}}
{}&{}& \uparrow &{}& \uparrow
\end{array}}&{}&{}&{}\\
{\begin{array}{*{20}{c}}
{}&{}&{\min }&{}&{\min }
\end{array}}&{}&{}&{}
\end{array}
\]
从上面式子可知,博弈有四个纯纳什均衡,分别为
\[(\alpha_1,\beta_2);(\alpha_3,\beta_2)
\]
\[(\alpha_1,\beta_4);(\alpha_3,\beta_4)
\]
这种纯纳什均衡求法就是定理3的结果,为了和诸多教材贴合且学习的比较与便利,做了简要展示,不再赘述。
五 线性规划求纳什均衡
例5 试用线性规划法求矩阵博弈的纳什均衡
\[A=
\begin{bmatrix}
7 & 2 & 9 \\
2 & 9 & 0 \\
9 & 0 & 11
\end{bmatrix}
\]
求解矩阵对策的纳什均衡可化为两个互为对偶的线性规划问题
\[\begin{array}{r}
(P)\left\{\begin{array}{r}
\min \left(x_1+x_2+x_3\right) \\
7 x_1+2 x_2+9 x_3 \geq 1 \\
2 x_1+9 x_2 \quad \geq 1 \\
9 x_1+11 x_3 \geq 1 \\
x_1, x_2, x_3 \geq 0
\end{array}\right.
(D)\left\{\begin{array}{rr}
\max \left(y_1+y_2+y_3\right) \\
7 y_1+2 y_2+9 y_3 \leq 1 \\
2 y_1+9 y_2 & \leq 1 \\
9 y_1+11 y_3 & \leq 1 \\
y_1, y_2, y_3 & \geq 0
\end{array}\right.
\end{array}
\]
上述线性规划的解为:
\[\begin{array}{ll}
x=\left(\frac{1}{20}, \frac{1}{10}, \frac{1}{20}\right)^T & w=\frac{1}{5} \\
y=\left(\frac{1}{20}, \frac{1}{10}, \frac{1}{20}\right)^T & v=\frac{1}{5}
\end{array}
\]
故对策问题的解为:
\[\begin{aligned}
& V_G=\frac{1}{w}=\frac{1}{v}=5 \\
& x^*=V_G x=5\left(\frac{1}{20}, \frac{1}{10}, \frac{1}{20}\right)^T=\left(\frac{1}{4}, \frac{1}{2}, \frac{1}{4}\right)^T \\
& y^*=V_G y=5\left(\frac{1}{20}, \frac{1}{10}, \frac{1}{20}\right)^T=\left(\frac{1}{4}, \frac{1}{2}, \frac{1}{4}\right)^T
\end{aligned}
\]
注意:上面可直接对\(x和y\)(概率分布满足概率和为1)归一化处理,不必求出\(V_G\),就可求出博弈的混合策略,计算更为简洁明了。
\[ \begin{aligned}& x^*=\left(\frac{1}{20}, \frac{1}{10}, \frac{1}{20}\right)^T=\left(\frac{1}{20}, \frac{1}{10}, \frac{1}{20}\right)^T\frac{1}{ \frac{1}{20}+\frac{1}{10}+\frac{1}{20}}=\left(\frac{1}{4}, \frac{1}{2}, \frac{1}{4}\right)^T \\& y^*=\left(\frac{1}{20}, \frac{1}{10}, \frac{1}{20}\right)^T=\left(\frac{1}{20}, \frac{1}{10}, \frac{1}{20}\right)^T\frac{1}{ \frac{1}{20}+\frac{1}{10}+\frac{1}{20}}=\left(\frac{1}{4}, \frac{1}{2}, \frac{1}{4}\right)^T\end{aligned}
\]
如果收益矩阵负元素数量太多,可能导致线性规划无解,这时可给收益矩阵的元素都适当增加同一个正数,使其每一个元素都变为正数,然后求解线性规划即可,不改变最后的混合纳什均衡,参看定理6。
六 总结
矩阵对策是一种最简单、最基本的博弈,说它简单是因为只有两个局中人,且每个局中人都只有有限个策略;说它基本是因为它的一套比较成熟的理论和方法是研究其他各种对策的基础。学习矩阵对策既可以让我们对对策论有一个初步的了解,又可以让我们从中看到矩阵思想的精妙应用。
参考资料
1.对策论——运筹学
2.纳什均衡(Nash equilibrium)及经典案例
3.9.1 Matrix Games (矩阵对策)
4.运筹学-36-对策论(博弈论)-矩阵对策(纯策略、混合策略)