博弈论——颤抖手纳什均衡(二十一)

在博弈论中,纳什均衡(Nash Equilibrium)是博弈各方的一种策略组合,在这个组合下,每个参与者的策略都是对其他参与者策略的最优反应。换句话说,在纳什均衡下,任何一方都没有动机单方面改变自己的策略,因为那样做不会带来更高的收益。然而,纳什均衡的稳定性问题引发了大量的研究,特别是当我们考虑到现实中的人们有时会“犯错”或者随机地偏离最优策略时,传统的纳什均衡可能显得不够稳定。为了解决这个问题,颤抖手纳什均衡(Trembling Hand Perfect Nash Equilibrium)应运而生,它通过允许博弈参与者有一定概率选择非最优策略,从而增强了纳什均衡的稳定性,是解决多重纳什均衡问题的一个途径。

一、颤抖手博弈纳什均衡

在任何一个博弈中,每个局中人都有一个犯错误的可能性(类似一个人用手抓东西时,手一颤抖,他就抓不住他想抓的东西)。一个策略对是一个颤抖手精炼均衡时,它必须具有如下性质:各局中人i要采用的策略,不仅在其他局中人不犯错误时是最优的;而且在其他局中人偶尔犯错误(概率很小,但大于0)时还是最优的,可知颤抖手精炼均衡是一种较稳定的均衡。为了解决纳什均衡的稳定性问题,诺贝尔经济学奖得主 Reinhard Selten 提出了颤抖手纳什均衡(Trembling Hand Perfect Nash Equilibrium)这一概念。这个均衡考虑了现实中决策者可能会犯错的情况,即参与者以极小的概率选择非最优策略。通过允许每个参与者的手“颤抖”一下,理论能够更稳健地描述现实决策过程中的均衡。

1.1 颤抖手均衡的描述

颤抖手纳什均衡是纳什均衡的一种更稳定的加强版本,它要求每个参与者的策略对手的颤抖(即他们选择非最优策略的极小概率)具有鲁棒性。具体来说,在颤抖手均衡中,参与者即使面对对手可能颤抖的情况,也必须选择能最大化其期望收益的策略。
设想一个博弈中每个参与者都可能以极小的概率“犯错”,即以某个ϵ>0 的概率偏离最优策略。这时,参与者不能仅仅选择那些在某些情况下有更高回报的策略,而是必须选择在所有可能偏离情形下都能保证最优收益的策略。

σ 为有限博弈 Γ={I,S,u} 的策略包,其中:

  • I 表示博弈中的参与者集合。
  • S 表示每个参与者的策略集合。
  • u 表示每个参与者的收益函数。

若存在一列混合策略包 {σk},使得对每个参与者 i 的每个策略 si,在所有 k 中,σk(si)>0(即每个策略都有正的选择概率),且满足:

  • {σk}σ,表示混合策略包 {σk} 收敛于策略 σ
  • σΔ,表示 σ 属于策略空间 Δ
  • σiBRi(σik),表示 σ 是最优反应(Best Response, BR),即参与者 i 的策略 σi 是对其他参与者混合策略包 σik 的最佳反应。

则称 σ颤抖手纳什均衡(Trembling-Hand Perfect Equilibrium, THPE)。

这里σ 为有限博弈的策略包σ 是一个混合策略,表示博弈中各参与者在每个策略上选择的概率分布。
混合策略包 {σk}:表示博弈参与者所选择的混合策略的一个序列,其中每个策略组合都有一定的概率,且所有策略的概率大于0(即没有策略被完全忽略)。这个序列最终会收敛于一个特定的策略组合 σ
混合策略空间 ΔΔ 是所有参与者的混合策略构成的空间。
最优回应 BRi(σik)BRBest Response(最优反应) 的缩写。对每个博弈者 iσi 是对其他博弈者策略组合 σik 的最优选择,即在给定对手的策略情况下,博弈者 i 的策略选择能够使其收益最大化。
颤抖手精炼均衡的关键点:颤抖手精炼均衡是纳什均衡的一种精炼,要求参与者的策略不仅仅是纳什均衡,还必须是对策略的“颤抖”(即轻微偏离)具有鲁棒性。在定义中,博弈者的策略不允许包含弱劣策略(即在偏离情况下仍无损失的策略),因为这样的策略经不起非理性因素的扰动。

例1:囚徒困境博弈

博弈方1 \ 博弈方2 合作 (C) 背叛 (D)
合作 (C) 3, 3 0, 5
背叛 (D) 5, 0 1, 1

寻找颤抖手纳什均衡的过程

  • (D, D) 是一个纳什均衡,因为无论一方做什么,背叛都是另一个玩家的最佳选择。
  • (C, C) 不是一个纳什均衡,因为背叛比合作有更高的收益。

颤抖手精炼
如果引入颤抖,即玩家可能会偶尔选择合作而不是背叛,那么我们要考虑微小概率的偏差对博弈的影响。

  • (D, D) 是颤抖手纳什均衡:即使有少量偏差,比如玩家偶尔选择合作,背叛仍然是每个玩家的最佳回应。这是因为无论另一方是否颤抖选择合作,选择背叛始终能带来更高的或不变的收益。因此,即使有偏差存在,背叛策略是稳固的。
  • (C, C) 不是颤抖手均衡:因为如果一位玩家偶尔选择背叛,另一位玩家将失去所有的收益。因此,在偏差的情况下,玩家将偏向于选择背叛,从而使 (C, C) 不是一个稳定的颤抖手均衡。

结论
在这个囚徒困境博弈中,唯一的颤抖手纳什均衡是 (D, D)

1.2 颤抖手均衡的简化

假设一个博弈中有n个参与者,每个参与者i选择策略si的概率为 pi(si),并且存在一个很小的概率ϵi表示参与者i选择“非最优策略”的概率。颤抖手纳什均衡要求在每个参与者的策略中,任意小的ϵi 偏差下,博弈的均衡解仍然保持稳定。也就是说,当ϵi0时,参与者的策略选择应该收敛于一个纯策略纳什均衡。

例2: 分析下面博弈的颤抖手纳什均衡

博弈方1\博弈方2 L R
U 10,0 6,2
D 10,1 2,0

在这个博弈中(D,L)和(U,R)都是纳什均衡,其中(D,L)对博弈方1较为有利,(U,R)对博弈方2较为有利,在不考虑选择和行为偏差的情况下,这两种纳什均衡都是稳定的。我们现在要判断的是它是否为颤抖手纳什均衡,即当博弈方有微小概率偏离其最优策略时,均衡是否仍然稳定。

(D, L) 是颤抖手纳什均衡

博弈方2偏离策略分析
假设博弈方2有可能偏离 L,选择 R。我们设博弈方2选择 R 的概率为 a,选择 L 的概率为 1a
计算博弈方1的期望收益
博弈方1选择 U 时的期望收益:

  • 当博弈方2选择 L(概率 1a),博弈方1的收益为 10。
  • 当博弈方2选择 R(概率 a),博弈方1的收益为 6。

期望收益 E(U) 为:E(U)=(1a)10+a6=104a

博弈方1选择 D 时的期望收益:

  • 当博弈方2选择 L(概率 1a),博弈方1的收益为 10。
  • 当博弈方2选择 R(概率 a),博弈方1的收益为 2。

期望收益 E(D) 为:E(D)=(1a)10+a2=108a

比较期望收益

现在我们需要比较博弈方1在选择 UD 时的期望收益:

E(U)=104a

E(D)=108a

为了找出博弈方1是否会选择 D 作为最优策略,我们比较两者:

E(D)E(U)

即:

108a104a

化简:

8a4a

a0

因此,当 a=0 时,即博弈方2选择 L 的概率为 1(不偏离),博弈方1会选择 D。这个结论表明,(D, L) 是颤抖手纳什均衡。

(U,R)不是颤抖手纳什均衡

假设博弈方2“颤抖”
博弈方2选择R的概率为a,选择L的概率为1a。接下来,我们计算博弈方1的期望收益。

计算博弈方1的期望收益
博弈方1选择U时的期望收益:

  • 当博弈方2选择L(概率1a),博弈方1的收益为10。
  • 当博弈方2选择R(概率a),博弈方1的收益为6。

期望收益E(U)为:E(U)=(1a)10+a6=104a

博弈方1选择D时的期望收益:

  • 当博弈方2选择L(概率1a),博弈方1的收益为10。
  • 当博弈方2选择R(概率a),博弈方1的收益为2。

期望收益E(D)为:E(D)=(1a)10+a2=108a

比较期望收益

我们需要比较博弈方1在选择UD时的期望收益:

E(U)=104a

E(D)=108a

为了找出博弈方1是否会选择U作为最优策略,我们比较两者:E(U)E(D)

即:

104a108a

化简:

4a8a

a0

这意味着只要博弈方2的偏离概率a不超过1,博弈方1选择U是其最优策略。

博弈方2的选择
现在考虑博弈方2的决策。如果博弈方2知道博弈方1选择U,那么博弈方2的收益为:

  • 选择R时的收益是2。
  • 选择L时的收益是0。

显然,博弈方2在这种情况下会选择R,因为2>0。

当我们引入颤抖手的概念时,博弈方1在考虑到博弈方2可能以小概率偏离R而选择L的情况下,会发现选择DU更具稳定性。这意味着(U,R)在颤抖手均衡下并不稳定,因为博弈方1有动机选择D以应对博弈方2可能的偏差。因此,(U,R)不是颤抖手纳什均衡。

二、颤抖手纳什均衡

颤抖手纳什均衡(Trembling Hand Nash Equilibrium)是对传统纳什均衡的扩展,它引入了博弈者偶尔可能犯错误的情况。颤抖手纳什均衡不仅要求每个参与者的策略在面对对手的最优策略时是最优的,还要求即使对手偶尔出错,这种均衡策略也要具备稳定性。
在经典纳什均衡中,博弈者会假设其他博弈者完全理性,并且所有博弈者都会严格按照最优策略进行选择。然而,在实际决策过程中,博弈者可能会由于各种原因偶尔出错,即他们可能会选择并非最优的策略。为了应对这种可能性,颤抖手纳什均衡提出了一种更稳健的策略选择方式,要求参与者在对手可能偶尔选择“错误”策略时,也能采取相对最优的策略回应。简言之,颤抖手纳什均衡强调了稳健性。它不仅要求每个博弈者的策略在面对理性对手时是最优的,还要在对手偶尔“颤抖”选择非最优策略时,这个策略仍然能保证参与者的最大收益。

在演进博弈论中,颤抖手均衡尤其具有解释力。演进博弈论研究的是博弈双方通过一系列重复博弈形成的稳定策略,这种稳定性不一定来源于完全理性的策略计算,而可能是一种随机形成的过程。在这一过程中,博弈者会基于对对方行为的观察与猜测,逐步调整自己的策略,从而形成一种稳定的均衡。颤抖手均衡则解释了即使在对手偶尔出错的情况下,稳定的策略仍然能够维持。要将一种均衡定义为颤抖手纳什均衡,必须满足以下两个关键条件:
策略的最优性:即使考虑到对手有可能颤抖(选择非最优策略),每个博弈者的策略仍然是最优的。换句话说,颤抖手纳什均衡不仅考虑了传统意义上的理性选择,还加入了应对不确定性和微小错误的策略。
策略的鲁棒性(稳健性):在对手可能犯错的情境下,参与者的策略依然能为其带来最大利益。这一特征确保了颤抖手纳什均衡相比于传统纳什均衡更具稳定性和鲁棒性。

例3 考察下面博弈中的所有纳什均衡

一个博弈有可能存在很多个纳什均衡,对纳什均衡的精炼就是以不同的标准剔除在某一衡量标准下相对不合理或不稳定的纳什均衡而筛选出最合理或稳定的纳什均衡, 这个过程叫做纳什均衡的精炼(refinement)。颤抖手均衡是纳什均衡的一种精炼, 简单地说, 在一个纳什均衡状态,如果其中一个参与者的手颤抖了一下(假设为小概率事件)选择了次优的策略,那么一个纳什均衡是颤抖手均衡的要求就是参与者有动机重新回到原来的均衡,而不是这个偏离并趋向另一个纳什均衡。 如上图的例子, 图1显示这个博弈有两个纯策略纳什均衡,(A, A) 和 (B,B), 收益分别是 (1,1) 和 (2,2) ;但颤抖手均衡只有一个,就是(A, A),收益为(1,1)。解释如下:
假设双方处于(A, A)这个纳什均衡, 如果参与者 I 颤抖,选择了B, 那么博弈的结果是 (B, A),在 (B, A), 参与者 I 有动机改变现状,因为选B的收益是0, 而选A的收益是1, 所以参与者 I 会重新选择A, 使博弈回到(A, A)这个均衡,对参与者 II 来说,(B,A)和(B,B)的收益是一样的,都是2,所以在(B,A)参与者II 没有动机改变现状。综上, 在(A,A)这个均衡,颤抖后博弈会重新回归这个均衡。直观地说(A,A)是抗震的,震完以后会归位。(A,A)就是一个颤抖手均衡。
相反,(B,B)就不是一个颤抖手均衡。
假设双方处于(B,B), 收益 (2,2),如果有参与者颤抖,比如参与者II 颤抖到A,博弈结果成为(B, A),收益变成 (0,2),在这个情况下,对于II 来说没有动机改变,因为颤抖前后收益都为2, 但对于I 来说,就不一样了,如果II 颤抖到A, I 的收益就从2变到0, 如以上所述,在(B,A)的情况下,I 有动机改变并选A。 所以,在(B,B)这个纳什均衡点,颤抖后均衡会趋向 (A,A)这个点,所以(B,B)就是在颤抖情况下不稳定的, (B,B)就不是一个颤抖手均衡。
在只有两个参与者的情况下,颤抖手均衡的一个充分必要条件是:是纳什均衡并且没有一个参与者的策略是弱劣策略(weakly dominated)。如图的列子里,B 对双方来说都是弱劣策略,所以根据这个充要条件,(B,B)可以被简单地剔除。

例4: 分析博弈的所有纳什均衡

考虑一个两人博弈,玩家1有策略三种:T、M、B,玩家2有三种策略:L、C、R。收益表如下:玩家1选择T时,无论玩家2如何选择,收益均为0;玩家1选择M时,玩家2选L收益为0,选C收益为1,选R收益为2;玩家1选择B时,玩家2选L收益为0,选C收益为0,选R收益为2。

Player1 \ Player2 L C R
T(p1) 0, 0 0, 0 0, 0
M(p2) 0, 0 1, 1 2, 2
B(1p1P2) 0, 0 0, 2 2, 2

纳什均衡分析

基于策略矩阵可找到一个纯策略纳什均衡 (M, C),即 Player1 选择 M,Player2 选择 C。

  • 当 Player1 选择 M 时,Player2 选择 C 是最优反应,因为在这个组合下,Player2 获得的收益是 1,而偏离 C 选择 L 或 R 并不会带来更高的收益。
  • 反过来,当 Player2 选择 C 时,Player1 选择 M 也是最优反应,因为 M 在 Player2 的所有策略下都不会带来更低的收益。

混合纳什均衡分析:Player2 在 L、C、R 之间不满足无差异条件

对于 Player2 来说,他的目标是选择使自己的收益最大化。如果 Player2 选择 L、C、R 的概率都是正的,那么他必须在这三个策略之间保持无差异,
计算 Player2 选择不同策略时的收益,即:

  • Player2 选择 L 的期望收益:

    U2(L)=0×p1+0×p2+0×(1p1p2)=0

  • Player2 选择 C 的期望收益:

    U2(C)=0×p1+1×p2+2×(1p1p2)=p2+2(1p1p2)

  • Player2 选择 R 的期望收益:

    U2(R)=0×p1+2×p2+2×(1p1p2)=2p2+2(1p1p2)

无差异条件:

U2(L)=U2(C)=U2(R)

即:

0=p2+2(1p1p2)=2p2+2(1p1p2)

我们先解 0=p2+2(1p1p2)

0=p2+22p12p2

0=22p1p2

p2=22p1

再解 0=2p2+2(1p1p2)

0=2p2+22p12p2

0=22p1

2p1=2

p1=1

p1=1 代入 p2=22p1

p2=22(1)=22=0

然而,这导致 Player1 的策略变成 p1=1,p2=0,即 Player1 只选择 T,不再混合其他策略。这与我们的假设(存在混合策略均衡)相矛盾。

此外,如果我们尝试让 U2(C)=U2(R),我们会得到:

p2+2(1p1p2)=2p2+2(1p1p2)

p2+22p12p2=2p2+22p12p2

p2+22p12p2=22p1

p22p2=0

p2=0

p2=0

这再次表明 Player1 只能选择纯策略,无法形成真正的混合策略均衡。
Player2 无法在 L、C、R 之间保持无差异,因此该博弈不存在混合策略纳什均衡。

颤抖手精炼均衡分析

颤抖手均衡要求在考虑“玩家可能误操作”或“玩家对策略选择有极小概率的偏离”情况下,均衡仍然保持稳定。对于 (M, C):

  • 若 Player1 以极小概率误操作,选择 T 或 B,那么 Player2 仍然应该选择 C,因为 C 仍然带来较好的收益。
  • 若 Player2 以极小概率误操作,选择 L 或 R,则 Player1 选择 M 仍然是最优的。

因此,该均衡在颤抖手均衡意义下也是稳健的。

总结

颤抖手纳什均衡(Trembling Hand Perfect Nash Equilibrium)是博弈论中对传统纳什均衡的扩展和加强。传统纳什均衡假设所有参与者都理性地选择最优策略,但在实际中,参与者可能会由于错误或其他不确定因素,偶然地选择非最优策略。颤抖手均衡通过引入参与者可能出现的“颤抖”——即轻微的非理性行为或策略偏离,从而使均衡在面对这种偶然“错误”时仍然保持稳定。换句话说,这一均衡要求策略不仅在当前情境下最优,而且在对手可能犯错的情况下也依然是最优的。
相比普通的纳什均衡,颤抖手纳什均衡更加现实,因为它考虑了策略选择中的微小偏差,并确保均衡解在各种细微扰动下仍然成立。特别是在存在多重均衡的博弈中,颤抖手均衡可以帮助筛选出更稳健的解,从而避免因策略偏差导致的不稳定现象。它不仅广泛应用于经济学中的市场进入博弈、拍卖博弈等,还在进化博弈论中用于解释物种如何形成稳定的行为策略。因此,颤抖手纳什均衡为博弈论提供了一个更强的稳定性标准,它在面对具有多重均衡和不完全信息的博弈时,提供了更为精确的分析工具。

参考文献

1.博弈论新讲(5) 颤抖手精炼均衡
2.张维迎《博弈与社会》威胁与承诺(2)序贯理性

posted @   郝hai  阅读(541)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
点击右上角即可分享
微信分享提示