博弈论——完全信息动态博弈(五)

完全信息动态博弈中信息是完全的,即双方都掌握参与者对他参与人的策略空间和策略组合下的支付函数有完全的了解,但行动是有先后顺序的,后动者可以观察到前者的行动,了解前者行动的所有信息,而且一般都会持续一个较长时期。

一、扩展式博弈的结构化描述(博弈树)

博弈树1 博弈树2

参与人集合N
策略集A:表示所有可能的策略。不过在一些结点上可能只有一部分可以选择的策略。
历史集H:从根节点到当前决策节点的路径中经过的决策的序列(有序集)。特别地根节点历史为ϕ,亦即“策略的序列”构成的集合,可以是有限集或者无限集。H中的元素称为历史(history)。性质:
(1)H,表示博弈树的根结点。
(2)如果策略序列a1a2akHs<k,那么a1a2asH
(3)每一条历史序列都对应博弈树的一个结点,对应历史序列末端到达的结点。
(4)在完全信息扩展式博弈中,历史集大小=结点个数。
(5)最终历史(Terminal history):如果a1a2akH,但a1a2ak+1Hforanyak+1A
(6)最终历史集(Terminal history set):Z = {All Terminal history},在这些结点上是收益
博弈局中人函数(Player Function)P:
(1)P:HZN,给每一个非终结历史分配玩家集N中的一个元素。
(2)P(h)表示在历史h后,轮到哪个玩家做决策。
收益函数(Payoff Function)ui:ZR,表示第i个玩家的收益。

扩展式博弈G={N,H,P,{ui}}(不需要策略集A,用上面四个就可以完全刻画一个扩展式博弈,因为策略都包含在历史里了)

例1:最后通牒博弈

由博弈树转化为扩展式博弈:

G={N,H,P,{ui}}
N={A,B}
H={,(2,0),(1,1),(0,2),((2,0,y)),((2,0),n),((1,1),y),((1,1),n),((0,2),y),((0,2),n)}
P:P()=A;P((2,0))=B;P((1,1))=B;P((0,2))=B
u1((2,0),y)=2,u1((2,0),n)=0,u_1((1,1),y)=1,u1((1,1),n)=0,u1((0,2),y)=0,u1((0,2),n)=0,u2((2,0),y)=0,u2((2,0),n)=0,u2((1,1),y)=1,u2((1,1),n)=0,u2((0,2),y)=2,u2((0,2),n)=0

例2:由扩展式博弈定义画出博弈树

G={N,H,P,t{ui}}N={1,2}H={,A,B,AL,AR}P:P()=1;P(A)=2u1(B)=1,u1(AL)=0,u1(AR)=2u2(B)=2,u2(AL)=0,u2(AR)=1

画出博弈树:

二、子博弈的要素

子博弈由三个要素构成:(1)一个决策结点,该点代表某一参与人的信息集;(2)该结以后的所有决策结;(3)在终极点上的收益(Payoffs)。在动态博弈中,给定历史,从每一个行动开始至博弈结束,独立地构成一个博弈。
例3:子博弈示例

图1 图2
图3 图4
上图1、2、3、4、5是原博弈全部的五个子博弈。 上图2、3、4是原博弈问题唯一的三个子博弈,1因为破坏了信息集合,所以它不是子博弈。

三、子博弈完美纳什均衡(SPNE)——逆向递推法

从最末端的非叶子结点开始(从最后的子博弈开始),计算NE(此时对于这个非叶子结点的玩家,相当于寻找他的最优收益)。用这个收益,替代这个子博弈根结点。重复直到根节点。通过逆向归纳构造的策略博弈集等价于SPNE的集合。
例4:唯一的SPNE

红色的勾表示选择这个分支。从下往上推,每个人选择自己收益较高的分支。

例5:不唯一的SPNE

在最高收益相等的时候,根据纳什均衡的定义,这些收益最高的都是纳什均衡。玩家2会选择的纯策略可能有4种:FHK、FIK、GHK、GIK。当玩家2选择FHK的时候,玩家1在三个分支上的收益分别是:3, 1, 1。因此,玩家1会选择C,得到一个SPE:(C, FHK)。同理得到所有的SPE:(C, FHK)、(C, FIK)、(C, GHK)、(D, GHK)、(E, GHK)、(D, GIK)。

例6:三回合议价博弈
甲乙分1万元,博弈规则: (1) 甲先提方案,乙接受则议价结束,拒绝则由乙提方案;(2)若甲接受,议价结束,拒绝则由甲提新方案,乙必须接受;(3) 议价每多进行一回合,双方分得现金产生消耗,消耗系数为δ(eg:0.98)

根据逆推归纳:第三回合是确定的。从第二回合开始,乙的最优策略,使甲的收益不低于δ2S,即δS2=δ2S,所以S2=δS,同时要使 δ(10000S2)δ2(10000S),显然成立。
第一回合时甲知道乙的策略,所以给乙δ(10000S2),即 δ(10000δS),甲剩余10000(1δ)+δ2S

对于子博弈纳什均衡进一步分析:第三回合甲的方案乙必须接受S=10000,所以甲得益S1=10000(1δ+δ2),最终:

[10000(1δ+δ2),10000(δδ2)]

① δ—越接近1,甲接近得到全部得益,乙的得益接近0;  
② δ—越接近0,甲接近得到全部利益,乙的得益接近0;  
③ δ = 0.5,甲得到7500元,乙可分得最多的2500元, δ=0.5 给乙带来的议价能力最大。    

甲具有优势的原因 : A. 先行优势; B. 结束博弈的特权

例7:强盗分金
有5个强盗抢得10枚硬币,在如何分赃上争论不休,于是他们决定:(1)抽签决定个人的号码(1,2,3,4,5);(2)由1号提出分配方案,然后5人表决,如果方案超过半数同于就通过,否则他被扔进大海喂鲨鱼;(3)1号死后,2号提方案,4人表决,当且仅当超过半数同意时方案通过,否则2号被扔进大海;(4)依次类推,知道找到一个每个人都接受的方案(当然,如果只剩5号,他独吞),结果会如何?

很多人认为抽到1号签的海盗很不幸,因为他们很难活下去。但实际上,只要他的分配方案能让至少两个海盗同意,他就可以活下去。那么1号海盗应该怎么做呢?他需要分析自己所处的境况,笼络两个处于劣势的海盗同意他的方案。倒推法可以帮助我们解决这个问题。我们应该从4号和5号两个海盗入手,以此作为问题的突破口。对于5号海盗来说,前面4个海盗全部扔进海里是最好的,自己独吞100枚金币。但这种看似最有利的形势,对于5号海盗来说,却未必可行。因为在只剩下他和4号海盗的时候,4号海盗一定会提出100:0的分配方案,这个方案一定能获得通过。
当3号、4号、5号海盗存在时,金币的分配方案是99:0:1。3号提出99:0:1的方案,自己得到99枚金币,4号得到0枚金币,5号得到1枚金币。3号会同意,4号会反对,而5号会赞同,因为否则,接下来只剩下5号和4号,5号一个都得不到,所以金币分配方案变成了99:0:1。当2号、3号、4号、5号共存时,2号海盗的最好方案是笼络5号海盗,放弃3号海盗和4号海盗,分配方案为98:0:0:2。5号会同意,而3号和4号会反对。2:2通过,金币分配方案为98:0:0:2。
当1号到5号都在时,1号提出方案为98:0:1:1:0,3号、4号和1号会同意,而2号和5号反对也不影响方案通过。所以,结果就是1号得到98枚金币,3号得到1枚金币,4号得到1枚金币,2号和5号一枚金币也得不到。

例8:蜈蚣博弈

蜈蚣博弈的过程如下:玩家1先手,在“横(across)”和“下(down)”之间选择。如果玩家1选择“横”,则由玩家2继续在“横”和“下”之间选择,如果玩家2选择“横”,则继续下一轮。当玩家选择“下”或达到T轮,博弈结束。如果博弈在T轮结束,因为玩家2选择“下”,玩家2得到T,而另一个玩家得到0;如果博弈在T轮后结束,玩家1得到T+1,玩家2得到0。
:现在我们用逆向归纳法。在T期的最后一个行动,玩家2会选择“下”。基于以上,玩家1会在T期选择“下”;基于以上,玩家2会在T1 期选择“下”……
基于以上全部,博弈一开始,玩家1就会选择“下”在每个可能的节点上的预测“下”不随T而改变。此外,在不影响子博弈完美均衡的情况下,收益可以在一段时间内以更快的速度增长,而不是像上面的例子那样以1的增量增长。

例9:承诺行动与要挟诉讼博弈

承诺行动与要挟诉讼的博弈模型描述了在竞争或法律环境中,如何通过承诺某种行动(如诉讼)来影响对手的决策。该模型通常采用动态博弈框架,其中一方(原告)可以通过威胁诉讼来施加压力,而另一方(被告)需要权衡接受和解或应对诉讼的成本和风险。在该博弈中,原告首先选择是否提起指控,并可提出和解方案。被告决定是否接受和解或继续博弈至诉讼阶段。在诉讼阶段,双方的收益取决于诉讼成本、赔偿金额及胜诉概率。通过逆向归纳法(SPNE)分析,该博弈的均衡策略取决于诉讼成本、和解金额及预期收益,揭示了承诺与威胁在战略互动中的关键作用。

  • 参与人--原告(玩家1)和被告(玩家2);
  • 博弈进程如下:
    • 原告决定是否指控被告,指控的成本是c。
    • 原告提出一个无协商余地的赔偿金额s>0以私了。
    • 被告决定接受或拒绝原告的要求。
    • 如果被告拒绝原告的要求,原告将决定是放弃还是上法庭。如果上法庭,自己诉讼成本为p,给被告带来的成本是d。
    • 如果告上法庭,原告以γ的概率胜诉而获得赔偿x,否则什么也得不到。
  • 参与人的支付满足:原告的期望赔偿小于他的诉讼成本,即γx<p。

第一步:终局决策分析(X₄ 处)

X₄ 处,玩家 1 需要决定是否 起诉放弃

  • 放弃,收益为 (−c, 0)
  • 起诉,收益为 (γx−c−p, −γx−d)

玩家 1 选择起诉的条件是:

γxcpc

即:

γxp0γxp

如果 γx ≥ p,则 起诉;否则 放弃


第二步:被指控者的决策(X₃ 处)

玩家 2 在 X₃ 处有两种选择:

  • 接受和解 s,收益为 (−s, s−c)
  • 拒绝和解,进入 X₄ 的决策。

若玩家 1 在 X₄ 处最终会选择 放弃,那么玩家 2 拒绝和解的收益为 (0, −c)

因此,玩家 2 会选择 接受和解 当:

s>c

即:

s<c

s < c,则 接受和解;否则 拒绝和解

第三步:提出和解金额(X₂ 处)

X₂ 处,玩家 1 选择 s 的大小:

  • 由于玩家 2 只会接受 s < c,玩家 1 会设置 最小的 s,使其被接受,即 s = c - ϵ(其中 ϵ 是无穷小量)。

此时:

  • 玩家 1 收益:(s−c, −s) ≈ (−ϵ, −c+ϵ)
  • 玩家 2 收益:(−s, s−c) ≈ (−c+ϵ, −ϵ)

第四步:初始决策(X₁ 处)

在 X₁ 处,玩家 1 选择是否指控:

  • 若不指控,收益为 (0, 0)
  • 若指控,收益为 (−ϵ, −c+ϵ)

由于 −ϵ 可能略小于 0,但趋近于 0,若 c 足够小(即诉讼成本低),则 指控是更优选择,否则不指控。

通过逆向递推法,我们得到:

  • 如果 γx ≥ p,则玩家 1 在 X₄ 处 起诉,否则 放弃
  • 如果 s < c,玩家 2 在 X₃ 处 接受和解,否则 拒绝和解
  • 玩家 1 在 X₂ 处选择 s = c - ϵ 以使玩家 2 接受
  • 玩家 1 在 X₁ 处指控当 c 足够小时,否则不指控

均衡策略组合:

  • 玩家 1 选择指控(若诉讼成本 c 低)
  • 玩家 1 提出 s = c - ϵ 的和解金额
  • 玩家 2 选择接受和解
  • 最终收益为 (−ϵ, −c+ϵ) 近似于 (0, −c)

如果诉讼成本 c 较高,则玩家 1 不指控,均衡为 (0, 0)

例10:委托——代理理论

委托代理人关系的一个问题是代理人工作成果的确定性问题,即代理人的工作成果是否完全由其工作情况所确定。代理人的工作成果取决于努力程度,无意外风险导致工作成果减少。委托人可根据工作成果掌握代理人的工作情况。
三阶段委托代理:
① 代理人努力时双方得益 R(E):委托人的较高收益 ;w(E):代理人的较高报酬;E:代理人努力工作的成本
② 代理人偷懒时双方得益 R(S):委托人的较低收益 ;w(S):代理人的较低报酬; S:代理人偷懒工作的成本

图5 图6

采用逆推归纳法:第三阶段:必须满足w(E)-E>w(S)-S ,代理人才会选择努力,这一约束称为激励相容约束。经济意义:只有当代理人得到的报酬,在其偷懒所得报酬的基础上有一个补偿,代理人才选择努力。第二阶段:代理人参与委托的条件: w(E)E>0,w(S)S>0,这称为参与约束。 第一阶段:A. 代理人努力时委托人的选择:R(E)w(E)>R(0)——委托,R(E)w(E)<R(0)——不委托;B. 代理人偷懒时委托人的选择:R(S)w(S)>R(0)——委托,R(S)w(S)<R(0)——不委托。

参考文献

  1. 博弈论笔记(八):求解子博弈完美均衡——单步偏移,后向归纳
  2. 第三章 完全且完美信息动态博弈
posted @   郝hai  阅读(2616)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
点击右上角即可分享
微信分享提示