对策论——纳什均衡(二)
博弈论主要研究公式化了的博弈方之间的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法,博弈论考虑局中人的预测行为和实际行为,并研究它们的优化策略。博弈分析的目的是预测博弈的均衡结果,即给定参与人都是理性的,每个参与人都知道每个参与人都是理性的,理解并预测局中人的博弈行为。博弈论的研究路径是建立博弈模型,分析重点是找出均衡,均衡是博弈模型的解,实质是对参与人策略和行为的理性预测。
一 博弈的策略式模型
博弈的任何描述都必须包括以下要素:参与人(决策者)的集合;每个参与人的可能行动;决定参与人行动顺序的规则;裁定博弈结束的规则;裁定每个博弈终局结果的规则。博弈策略式模型又称为标准式模型,在这种模型中,所有参与人同时选择各自的战略,所有参与人选择的战略一起决定每个参与人的支付。
策略式表述更适合描述静态博弈,策略式表述给出要素
- 博弈参与人的有限集合 ,
- 每个参与人的策略空间(集合) ,;用 表示所有策略向量的集合
- 每个参与人 ,是策略组合和参与人的效用函数,
策略式的博弈模型可表达为
博弈结果是一个策略组合,即,是一组策略构成的元组。后面也用,表示对手博弈策略,则。策略式博弈有时也叫做矩阵博弈,当参与人的数目大于2时,对应的矩阵是维的且每个单元格包含一个维向量,表示个参与人的收益(效用)。
在策略式博弈中,收益的具体数值并不重要,重要的是收益之间的大小关系,称作偏好关系。任何满足全序关系的集合,都可以用来表示收益,通常用实数来表示收益。
例1 囚徒困境
前述囚徒困境的策略式模型表述为:
- 参与人:,表示1、2两个囚徒
- 策略集:,为了书写简便,用c表示坦白,用d表示抵赖
- 收益函数: ;
该博弈的策略式模型:
也用收益矩阵集成表示该博弈:
在同一个方框中,左边代表参与人1的收益,右边代表参与人二的收益。上图左边表示第1(A)个参与人在相应局势下的收益,右边表示第2(B)个参与人在相应局势下的收益,他们共同构成如图的收益矩阵。这是后面矩阵博弈表示的来源或出处。
例2 监督博弈
1972年,Alchian & Demsets在《美国经济评论》上发表了《生产、信息成本和经济组织》一文,提出了解决方案:使其中人一成为所有者,另一人变成雇员,让前者监督后者。对于所有者,偷懒是严格劣策略,所以所有者一定会选择工作。
二 纳什均衡
纳什均衡(Nash equilibrium),又称为非合作博弈均衡,是博弈论的核心术语。在一个博弈过程中,如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。纳什均衡解释了在一策略组合中,所有的参与者面临这样一种情况,当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。
一个策略组合被称为纳什均衡,当每个博弈者的均衡策略都是为了达到自己期望收益的最大值,与此同时,其他所有博弈者也遵循这样的策略。纳什均衡用一句话来概括就是——博弈的所有参与人都为了满足自己的个人利益而选择牺牲集体利益而导致的全体参与人都吃亏的均衡状态。也可以粗略的理解为:要死大家一起死。所谓纳什均衡,指的是参与人的这样一种策略组合,任何参与人单独改变策略都不会得到好处。换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。
纳什均衡:在博弈中,如果由所有博弈方的各个策略组成的某个策略组合中,任一博弈方的策略,都是对其余博弈方策略的组合的最佳对策,亦即
对任意都成立,则称为的一个纳什均衡。
注意:纳什均衡从字面上还是相对比较好理解的,这里稍微解释一下数学定义,任何一方采取的策略都是对其余所有方采取策略组合下的最佳对策;当所有其他人都不改变策略时,为了让自己的收益最大,任何一方都不会(或者无法)改变自己的策略,这时的策略组合就是一个纳什均衡,也叫纯策略纳什均衡。
2.1 最优反应(Best Response)
局中人关于对手策略的最优反应:
同时满足所有局中人的最优反应的博弈结果,就是纳什均衡。也就是对于 ,满足的博弈结果。
例3 依旧是囚徒困境
最优反应
在收益矩阵上标出这些最优反应:
表示在囚徒2选择c的时候,囚徒1的最优策略是c,因为囚徒1的收益(-6 > -12),对应矩阵中左边红色的”√“。详细分析如下:
表示在囚徒2选择d的时候,囚徒1的最优策略是c,因为囚徒1的收益(0 > -1),对应矩阵中右边红色的”√“。
表示在囚徒1选择c的时候,囚徒2的最优策略是c,因为囚徒2的收益(-6 > -12),对应矩阵中上边绿色的”√“。
表示在囚徒1选择d的时候,囚徒2的最优策略是c,因为囚徒2的收益(0 > -1)。对应矩阵中下边绿色的”√“。
因此,最终得到满足参与人的最优反应的结果:(c,c),也就是两人都坦白,就是该博弈的纳什均衡。
2.2 纳什均衡的求法——划线法
对于一个简单的“二人同时博弈”,可以用一个以二元数组为元素的支付矩阵来表示,并用“划线法”来确定它的纳什均衡。划线法是最优反应函数的实践应用,具体步骤如下:
- 把整个博弈的支付矩阵分解为两个参与人的支付矩阵。
- 在第一个(即位于整个博弈矩阵左方的)参与人(甲)的支付矩阵中,找出每一列的最大者,并在其下画线。
- 在第二个(即位于整个博弈矩阵上方的)参与人(乙)的支付矩阵中,找出每一行的最大者,并在其下画线。
- 将已经画好线的两个参与人的支付矩阵再合并起来,得到带有下划线的整个博弈的支付矩阵。
- 在带有下划线的整个的支付矩阵中,找到两个数字之下均画有线的支付组合。由该支付组合代表的策略组合就是博弈的纳什均衡。
例4 并非所有的博弈都存在纯策略纳什均衡。如下表所示的硬币正反博弈,此博弈就不存在纯策略纳什均衡。
这是一种常见的游戏,由两个人参与。规则是参与游戏的一方(玩家1)盖住硬币,由另一方(玩家2)来猜是正面朝上还是反面朝上。如果玩家1猜对,则获得1的收益,玩家2获得-1的收益;否则,如果玩家1猜错,他将获得-1的收益,玩家2获得1的收益。这显然是一个零和博弈,因为一个人的赢必然引起另一个人的输,并且两人总收益为零。我们用收益矩阵(Payoff Matrix)来表示这个博弈
上述矩阵中,参与方为玩家1和玩家2,每个玩家有两种策略,因此共有4种策略组合,矩阵每个元素代表在特定的策略下两方获得的收益(逗号前后分别代表玩家1和玩家2各自的收益)。由于玩家1和玩家2互相不知道对方的策略,可以看做两方同时做出决策。每一种游戏依具其规则的不同会存在两种纳什均衡,一种是纯策略纳什均衡,也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面),使得每人都赚得最多或亏得最少;或者是混合策略纳什均衡,而在这个游戏中,便应该采用混合策略纳什均衡。
三 混合纳什均衡
以硬币正反博弈为例,无论双方采用哪种策略组合,输的一方总可以改变策略使自己反败为胜,因此没有纯策略的纳什均衡。这时需要引入“随机性”来解决这个问题。混合策略就是在纯策略上加上概率,在一次博弈中,参与者随机地选择一种纯策略。混合策略是在概率意义下的一种策略,追求的是期望意义下的收益。
3.1 混合策略博弈的模型
混合策略
混合策略是给每个纯策略分配一个概率,一个局中人的策略集就是一个“样本空间”。用表示上的概率分布,即:
那么,混合策略
混合策略博弈结果
引入 ,则
期望收益
在这样一个“随机”的博弈中,收益如何计算呢?这就需要计算期望的收益了。期望的收益就是纯策略的博弈结果的收益乘上这个结果出现的概率,对每个博弈结果进行求和。
给定一个策略式博弈 和一个混合策略博弈结果 , 局中人 的期望收益是
(假设每个局中人是独立决策的,因此是每个局中人的相应策略的概率乘积)
混合策略博弈模型的表示
例5 称的博弈为双人博弈。 设种可能, 也就是说存在 种策略组合。 一般来说, 双人博弈中我们可以将策略组合以矩阵的形式予以表述, 称作策略组合矩阵 。具体地,我们设 ,而对于每个策略组合 , 我们可以 计算参与人 的效用 ,这样就得到了一个三阶张量,称作效用张量(显然这个叙述可 以推广到多人博弈上去)。双人博弈的效用张量可以通过一个表格 给出, 这个表格被叫做双人博弈的收益矩阵。 一个典型的收益矩阵如下所示:
显然, 是参与人 1 的一个混合策略, 是参与人 2 的 一个混合策略, 而 就是一个混合策略组合. 我们计算这个混合策略组合下 1 的效用 。根据定义,我们就有
这里我特意让每个概率值都不同, 从而方便进行对应项比照。类似地可以计算, 这里略去。
例6 在下面的博弈中,假设是策略U和策略L的概率,那么:
3.2 混合策略的纳什均衡
一个混合策略博弈结果是一个混合策略纳什均衡(mixed strategy Nash equilibrium,简记为MNE),对于每个局中人,都有:
通俗地解释就是:每个局中人都选择在对手不改变的情况下的最好的分布
最优反应:局中人的最优反应
显然,是MNE当且仅当对于所有的局中人。
定理1:有限的策略式博弈一定存在混合策略纳什均衡。
定理2:是MNE当且仅当对于所有的局中人的每个具有正概率的纯策略都是的最优反应。也就是说,局中人选任意一种纯策略的期望收益是相同的。
例7 考虑以下鹰兔博弈,求所有纳什均衡。
参与人1\ 参与人2 | T | W |
---|---|---|
T | -1,-1 | 2,1 |
W | 1,2 | 0,0 |
纳什均衡的意义在于利益最大化,所以仅需将利益最大化时策略间的关系求出即可。
令,则,则得到参与人1的最优反应函数为
对于 ;对于 ;对于
同理得到参与人2的最优反应函数
将两个函数绘制在一个坐标系中
红色曲线为参与人一利益最大曲线,蓝色为参与人二利益最大曲线,不难看出有三个点两个参与人利益均最大,即(0,1),(1,0),(),故此三个点对应的策略组合即为纳什均衡。
结合例题不难看出,纳什均衡的求解方法就是找出利益最大曲线,然后解出交点。所有参与人的混合策略的组合构成“混合策略组合”。混合策略组合与参与人的支付的乘积之和为参与人的期望支付。当其他参与人的混合策略确定之后,某个参与人选择的可以使自己的期望支付达到最大的混合策略是该参与人的混合策略,不同参与人的混合策略曲线的“交点”就是混合策略条件下的纳什均衡。
例8 求解下面博弈的混合纳什均衡
设局中人1选择U的概率是,局中人2选择L的概率是,由局中人2选L的期望收益等于局中人2选R的期望收益,得公式:
由局中人1选U的期望收益等于局中人1选D的期望收益,得公式:
解得:
因此求得纳什均衡
四 总结
纳什均衡就是多人参加的博弈中,每个人根据他人的策略制定自己的最优策略,所有人的这些策略组成一个策略组合,在这个策略组合中,没有人会主动改变自己的策略,因为那样会降低他的收益。只要没有人作出策略调整,这个时候,所有参与者的策略便达成了一种平衡,这种平衡便是纳什均衡。纳什均衡主要用来研究非合作博弈中的均衡,因此也被称作非合作博弈均衡。纳什均衡的一个特别之处在于通俗易懂,有人把纳什均衡比喻成锅里的乒乓球。如果你把几个乒乓球放到锅里,它们便会向锅底滚去,并在锅底相互碰撞,最后停止不动的时候便达成一种平衡,这个时候如果动了其中的一个,其它乒乓球便会受影响,如果想要保持这种平衡,就不能动任何一个乒乓球,一直保持下去。这个比喻中,乒乓球代表个体参与者的策略,乒乓球最后停留在锅底形成的平衡便是纳什均衡。
参考文献
1.《博弈入门》第二章:纳什均衡:理论
2.混合策略纳什均衡——附例题及解析
3.纳什均衡的简单理解
4.博弈论笔记(一):策略式博弈及其纳什均衡
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!