矩阵博弈中的混合策略求解
我们已经看到, 矩阵博弈可能没有鞍点或纯策略纳什均衡。然而, 当我们允许混合策略时, 均衡必定存在。令 x=(x1,⋯,xm) 表示行参与人的混合策略, y=(y1,⋯,yn) 为列参与人的混合策略。注意, aij 是当行参与人以概率 1 选择第 i 行且列参与人以概率 1 选择第 j 列时行参与人的收益。此时, 列参与人的收益为 −aij 。在伴随上述混合策略 x 和 y 的情形下, 行参与人的期望收益:
=u1(x,y)=m∑i=1n∑j=1xiyjaij=xAy
其中 x=(x1,⋯,xm);y=(y1,⋯,yn);A=[aij] 。在上面的表达式中, 我们稍微 滥用了符号, 因为我们本来应该用向量 y 的转置 (即 yT ) 但用了 y 本身 (出于简单目 的, 我们在本章都这么做, 因为这不会导致混淆)。此时, 列参与人的期望收益 为 −xAy 。当行参与人选择 x 时, 他保证自己的期望收益为
miny∈Δ(S2)xAy
因此, 行参与人应该选择使得上述收益最大的混合策略 x 。也就是说, 他应该选择 x 使得
maxx∈Δ(S1)y∈Δ(S2)minxxAy
换句话说, 行参与人的最优策略是最大最小化 (maxminimization) 策略。注意, 这里 隐含地假设不管行参与人怎么选择, 列参与交与都会选择对他(行参与人)最不利的策略。行参与人在这样的背景下选择最优策略。行参与人选择的这种策略也称为行参与人的安全策略。
类似地, 当列参与人选择 y 时,他保证自己的收益
=minx∈Δ(S1)−xAy=−maxx∈Δ(S1)xAy
也就是说, 列参与人保证自己的损失不超过
maxx∈Δ(S1)xAy
列参与人的最优策略应该使这个损失最小, 即
miny∈Δ(S2)x∈Δ(S1)maxxAy
这称为最小最大化 (minmaximization)。列参与人的这种策略也称为列参与人的安全 策略。
我们现在陈述和证明一个重要引理, 它断言若行参与人选择 x, 则在列参与人的最 优反应策略 y 中至少存在一个纯策略。
引理 9.1
给定矩阵博恋 A 以及混合策略 x=(x1,⋯,xm) 和 y=(y1,⋯,yn),
miny∈Δ(S2)xAy=minjm∑i=1aijxi
证明:对于给定的 j,
m∑i=1aijxi
这个加和给出了当行参与人选择 x=(x1,⋯,xm) 且列参与人选择纯策略 j 时, 行参与人的收益。因此,
minjm∑i=1aijxi
给出了当行参与人选择 x 但列参与人能自由选择任何纯策略时行参与人的最小收益。由于纯策略是混合策略的一种特殊情形, 我们有
minjm∑i=1aijxi⩾miny∈Δ(S2)xAy
另一方面,
xAy=n∑j=1yj(m∑i=1aijxi)⩾n∑j=1yj(minjm∑i=1aijxi)=minjm∑i=1aijxi( 因为 n∑j=1yj=1 )
因此, 我们有:
xAy⩾minjm∑i=1aijxi∀x∈Δ(S1),∀y∈Δ(S2)
这意味着
miny∈Δ(S2)xAy⩾minjm∑i=1aijxi
根据式 (9.1) 和式 (9.2), 我们有
miny∈Δ(S2)xAy=minjm∑i=1aijxi
这样, 我们就完成了这个引理的证明。
作为上面引理的一个直接推论, 可以证明
maxx∈Δ(S1)xAy=maxin∑j=1aijyj
使用上面的结果, 我们可以将行参与人以及列参与人的最优化问题描述如下。
行参与人的最优化问题 (最大最小化)
行参与人面对的最优化问题可以表示为
maxminjm∑i=1aijxi s. t.m∑i=1xi=1xi⩾0,i=1,⋯,m
将上面这个问题称为问题 P1 。注意, 这个问题可以简练地表示为
maxx∈Δ(S1)miny∈Δ(S2)xAy∘
列参与人的最优化问题 (最小最大化)
列参与人面对的最优化问题可以表示为
minmaxin∑j=1aijyj s. t. n∑j=1yj=1yj⩾0,j=1,⋯,n
将上面的问题称为问题 P2 。注意, 这个问题可以简练地写为
miny∈Δ(S2)x∈Δ(S1)maxxAy
下列命题说明问题 P1 和 P2 分别等价于适当的线性规划 (linear program, LP)。
命题 9.3
问题 P1 等价于下列线性规划 (我们将其称为线性规划 LP1 ):
maxz s. t.z−m∑i=1aijxi⩽0,j=1,⋯,nm∑i=1xi=1xi⩾0,i=1,⋯,m
证明: 注意, P1 是一个最大化问题, 因此, 我们考察约束条件
z−m∑i=1aijxi⩽0,j=1,⋯,n
任何最优解 (z∗,x∗) 将满足上述 n 个不等式中的一个。也就是,
z∗=m∑i=1aijx∗i 对于某个 j∈{1,⋯,n}
令 j∗ 就是满足上式的 j 值。于是
z∗=m∑i=1aij∗x∗i
由于 z∗ 是线性规划 LP1 的一个可行解, 我们有
m∑i=1aij∗x∗i⩽m∑i=1aijx∗i∀j=1,⋯,n
这意味着
m∑i=1aij∗x∗i=minjm∑i=1aijx∗i
如若不然, 我们有
z∗<m∑i=1aijxi∀j=1,⋯,n
因此, 下列两个线性规划分别描述了行参与人与列参与人面对的最优化问题。
行参与人的线性规划 (LP1)
maxz s. t. z−m∑i=1aijxi⩽0,j=1,⋯,nm∑i=1xi≐1xi⩾0∀i=1,⋯,m
列参与人的线性规划 (LP2)
minw s. t. w−n∑j=1aijyj⩾0,i=1,⋯,mn∑j=1yj=1yj⩾0∀j=1,⋯,n
例 9.8 (石头剪刀布博弈)
对于石头剪刀布博弈, 回忆一下, 行参与人的收益矩 阵为
A=⎡⎢⎣0−1110−1−110⎤⎥⎦
行参与人的最优化问题 P1 为:
maxmin{x2−x3,−x1+x3,x1−x2} s. t. x1+x2+x3=1x1⩾0;x2⩾0;x3⩾0
上面的这个问题等价于线性规划 LP1 :
maxz s. t. z⩽x2−x3;z⩽−x1+x3;z⩽x1−x2x1+x2+x3=1;x1⩾0;x2⩾0;x3⩾0
列参与人的最优化问题 P2 为
minmax{−y2+y3,y1−y3,−y1+y2} s. t. y1+y2+y3=1y1⩾0;y2⩾0;y3⩾0
上面这个问题等价于线性规划 LP2 :
min w s. t. w⩾−y2+y3;w⩾y1−y3;w⩾−y1+y2y1+y2+y3=1;y1⩾0;y2⩾0;y3⩾0
上面的线性规划问题使我们能够计算混合策略均衡。
参考文献
博弈论与机制设计
Game Theory and Mechanism Design Y.Narahari
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律