博弈论——完全信息动态博弈（四）

完全信息动态博弈是行为科学、经济学和决策科学中重要的博弈模型之一，旨在研究多个参与者在时间上相继做出决策的过程中，如何通过策略选择最大化各自的利益。与静态博弈不同，完全信息动态博弈强调决策的时序性和动态变化，即参与者的决策是按照一定的时间顺序依次作出的，每个玩家不仅要考虑当前的选择，还要预测和反应未来可能的决策。在完全信息动态博弈中，所有参与者都拥有关于其他玩家的完全信息，意味着每个参与者都了解其他玩家的策略选择和支付结构。博弈的“动态”性体现为决策是递进的，玩家们的决策会基于之前的行为及已知的信息作出调整和优化。每个玩家在每一轮决策时，都会根据当前的局势以及未来可能的博弈过程做出理性选择。这种博弈模型适用于复杂的多阶段决策过程，如拍卖、市场竞争、合作与博弈等情境。通过模拟不同参与者在不同情境下的策略选择，完全信息动态博弈能够为决策者提供有关长期战略和行为模式的有价值见解，形成复杂的博弈动态。

一、博弈模型的扩展式（博弈树）

之前运用博弈的策略式表述分析了静态博弈，这里引入博弈模型的扩展式表述并用它分析动态博弈。这一解释方法可能会给人一个印象，那就是静态博弈一定要用策略式表述，动态博弈一定要用扩展式表述。但这是一种误解，任何博弈都既可以用策略式表述，又可以用扩展式表述，尽管对某些博弈来讲，用其中一种表述形式分析起来较另外一种要方便一些。一个博弈的策略式表述包含的要素有：（1）博弈的参与人；（2）每一参与人可供选择的策略；（3）与参与人可能选择的每一策略组合相对应的各个参与人的收益。

博弈的扩展式表述包括：（1）博弈中的参与人；（2a）每一参与人在何时行动；（2b）每次轮到某一参与人行动时，可供他选择的行动；（2c）每次轮到某一参与人行动时，他所了解的信息；（3）与参与人可能选择的每一行动组合相对应的各个参与人的收益。
参与人的一个策略是关于行动的一个完整计划——它明确了在参与人可能遇到的每一种情况下对可行行动的选择。在参与人\(j\)计算针对参与人\(i\)的最优反应时，\(j\)需要考虑在每一种情况下\(i\)将如何行动，而并非仅考虑在\(i\)或\(j\)认为最有可能发生的情况下对方的行动。
博弈的扩展式常常用博弈树来描述。博弈树始于参与人\(1\)的一个决策结（decision node），这时\(1\)要从\(L\)和\(R\)中作出选择，如果参与人\(1\)选择\(L\)，其后就到达参与人\(2\)的一个决策结，这时\(2\)要从\(L'\)和\(R'\)中选择行动。无论\(2\)选择了哪一个，都将到达终点结（terminal node）（即博弈结束）且两参与人分别得到相应终点结下面的收益，参看下图1。

图1	图2

1.1扩展式博弈——信息集

为在博弈的扩展式中表示静态博弈的情况，引入一个新的概念——参与人的信息集（information set）。参与人的一个信息集指满足以下条件的决策结的集合：
(1)在此信息集中的每一个结都轮到该参与人行动；
(2)当博弈的进行达到信息集中的一个结，应该行动的参与人并不知道达到了(或没有达到)信息集中的哪一个结。
第(2)部分意味着参与人在一个信息集中的每一个决策结都有着相同的可行行动集合，否则该参与人就可通过他面临的不同的可行行动集来推断到达了(或没有到达)某些结点。
在引入了信息集的概念之后，可以给出区分完美信息和非完美信息的另外一种定义。前面我们曾将完美信息定义为在博弈的每一步行动中，轮到行动的参与者了解前面博弈进行的全部过程。对完美信息的一个等价的定义是每一个信息集都是单结的；相反，非完美信息则意味着至少存在一个非单结的信息集。那么，一个同时行动博弈的扩展式表述就是一个非完美信息博弈。这种用是否单结信息集区分完美信息和非完美信息的方法只限于完全信息的博弈，因为完美但非完全信息博弈的扩展式表述就含有非单结的信息集，这里我们只讨论完全信息的情况，参看图2。

1.2扩展式博弈模型的表达——博弈树

博弈树是指由于动态博弈参与者的行动有先后次序，因此可以依次将参与者的行动展开成一个树状图形。博弈树是扩展型的一种形象化表述。它能给出有限博弈的几乎所有信息，其基本构建材料包括结、枝和信息集。结包括决策结和终点结两类；决策结是参与人采取行动的时点，终点结是博弈行动路径的终点。枝是从一个决策结到它的直接后续结的连线(有时用箭头表述)，每一个枝代表参与人的一个行动选择。博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策集集合的一个子集，该子集包括所有满足下列条件的决策结：(1)每一个决策结都是同一参与人的决策结；(2)该参与人知道博弈进入该集合的某个决策结，但不知道自己究竟处于哪一个决策结，参看图2。

博弈树的特点
(1)博弈树的根结点就是初始结点。
(2)在博弈树中，”或”结点和”与”结点是逐层交替出现的。自己一方扩展的结点之间是”或”关系，对方扩展的结点之间是”与”关系。双方轮流地扩展结点。
(3)非叶子结点：代表博弈玩家，表示这个时候哪个博弈玩家做出决策。每个非叶子结点有且仅有一个博弈玩家。叶子结点：代表每个玩家在此时的收益，收益只存在于叶子结点。
(4)边：表示策略

二、完全信息动态博弈

完全信息动态博弈的一个重要特征是完全信息，意味着每个参与者都知道另一个参与者的行动，也知道另一个参与者从这个行动中获得什么样的利益损失。这允许他们考虑到彼此的角色，更好地理解另一个参与者对他们自己利益和损失的影响。有时候，完全信息会被认为是一种缺乏竞争元素的情况，因为当参与者都知道对方的行动时，他们就不太可能达成共同的行为。另一个重要特征是动态性，这意味着参与者可以在游戏过程中改变决策，而这一改变可以影响其他参与者的利润。此外，动态博弈还可以用胜负来衡量收益，因为参与者根据他们的行动可以获得更多的收益。
例1：最后通牒博弈
这个博弈来源于一个真实的故事，但故事本身一点不好玩，我们把其中的博弈游戏抽象出来即可。博弈需要两个人，假设为A和B。A得到了100元，他就获得了分配权。A可以随意分配这100元，可以给B50元，也可以给他10元，当然也可以一分钱都不给。B没有分配权，但他可以接受A的分配方案，也可以拒绝。之所以称之为“最后通牒博弈”，就在于：如果B拒绝了，那么A和B两个人都将失去所有钱。
A可以按100:0分配（即一分不给B），B当然会拒绝，于是两个人都一无所有。A也可以按0:100分配（即全给B），B当然会同意，但A显然不同意。A也可以按50:50分配，B会不会拒绝不知道。很多人做过这样的实验，结果是A的分配方案：中位数在40%-50%，平均数在30%-40%，A并不会把所有的钱据为己有，或许觉得自己有分配权，因此多拿一点应该，但不能太多，因为那样就“不公平”。请注意：公平，不是理性人应该考虑的问题。B的拒绝底线在20%左右，也就是低于20%的分配方案很大机会被拒绝，因为这侮辱人嘛，打发叫花子呢！B本来就是一无所有，能得20元也是一笔不少的收入啊。注意：侮辱，也不是理性人应该考虑的问题。

例2：开金矿博弈
甲开采价值4千万元的金矿，缺1千万资金，想说服乙投资，许诺采到金子后对半分成。在不同的法律环境下有不同的策略可信性，因此就有了不同的相机选择：

在动态博弈中，有（1）博弈方会相机选择，即根据不同阶段的情况灵活做出决策;（2）动态博弈中，博弈方的策略选择和博弈结果，与策略可信性密切相关;（3）策略的可信性是动态博弈分析的核心问题之一。
例3：市场进入博弈
用博弈树的方法来描述动态博弈可以很直观地表明参与人的行动顺序、信息和收益。在动态博弈里，参与人的决策是在不同时点做出的，因而策略并不一定是单一的行动，而是一个完备的行动计划，要为参与人在每个时点上规划一个行动。市场进入博弈（设想为一个规模不大的市场，只能有一个企业可持续生存）见图3，图中空心圆圈表示初始决策点，实心点表示之后的决策点，从决策点后引申的直线叫做路径（path），代表参与人在特定时点上的行动。参与人（企业）A首先选择“进入”或“不进入”；A选择后B再做选择。假如A首先选择进入，如果B同样选择进入，则两人得到的收益都为-1；如果B选择不进入，则A得到1，B得到0。假如A选择不进入，如果B选择进入，则A、B得到的收益分别为0和1；如果B也选择不进入，则各自得到0。习惯上，在博弈树最后的支付组合中，第一个数字表示第一个采取行动的人的收益，第二个数字表示第二个采取行动的人的收益（三人及三人以上的博弈以此类推）。

图3	图4

在上述博弈中，A首先行动，他的决策不可能建立在B行动的基础上，所以其策略是进入或者不进入(A单个信息集的行动集有2个行动)，但B不一样：B后行动(B有两个信息集，其每个行动集有2个行动，所以共有4个策略选择。参与人在扩展式博弈中的策略就是参与人在每个信息集上的行动规则，每个信息集上对应的行动集之间做笛卡尔积的结果。！！！)，他可以根据A的选择制定自己的行动计划。这样的话，由于A有两个不同选择，B依据A的每一个选择又具有两个不同的选择，从而B总共有4个策略：

策略1：无论A进入还是不进入，B都选择进入；
策略2：如果A进入，则B不进入；如果A不进入，则B进入；
策略3：如果A进入，则B进入；如果A不进入，则B也不进入；
策略4：无论A进入还是不进入，B都选择不进入。

对于B来说，上述的4个策略相当于4个行动计划。他需要在博弈开始之前为自己确定一个行动计划。假如B宣称自己将会选择策略1，即“无论A进入还是不进入，B都选择进入”，这时A将如何选择？如果A相信B真的选择这一策略的话，自己选择进入，就会得到-1，而如果自己不进入可以得到0，因此A的最优选择是不进入。实际上，A选择不进入和B选择策略1构成了一个纳什均衡，因为：给定A不进入，B的策略也是最优的；给定B的策略，A不进入是最优的。但问题是B的声明可信吗？

三、威胁与承诺的可信性

静态博弈中，参与人一旦选定策略（行动）后，就不会改变了。但是，在动态博弈中，参与人在博弈开始前选择的策略（行动计划）可能在博弈开始后进行调整，不一定按照原定的策略（行动计划）来进行。也就是说，事前最优的策略在事中或事后不一定是最优的。在例4中，B在事前声称要选择策略“不管A进入不进入，自己都选择进入”，但一旦A没有理会这一声明，选择了“进入”，此时B就会发现选择原来的策略并不是最优的，因为如果他此时改为选择“不进入”可以得到0，而坚持原定策略会得到-1。这说明B声明自己会选择策略1并不可信。动态博弈后行动者会观察先行动者的行动，决定自己的最优策略；而先行动者也要考虑到后行动者的会根据自己的行动来决策，而提前设定应对后行动者行动的策略，就会有承诺和威胁。
用通俗的例子来比喻。比如，一个男生求婚，他会说，“只要你嫁给我，我保证一辈子对你好的。”这就是承诺；而女生答不答应求婚，她也许会说，“如果你不对我好的话，我就XXX....”。这就是威胁。可是，这些承诺与威胁就一定会实施么？显然不一定，这就涉及到了“可信度”。因此，博弈的双方还要考虑对方承诺或威胁的可信度有多高，因此，承诺和威胁又被分为可信和不可信两类，而其后的决策又依赖于可信度的高低。生活中，这种声明可能是“威胁性”的(threat)，类似“如果你不答应做某事，我就会如何”，也可能是“许诺性”的(promise)，类似“如果你答应做某事，我会如何”。其实“威胁性”声明可以变成“许诺性”声明，比如，“如果你不答应做某事，我就会如何”可以改变为“如果你答应不做某事，我会如何”。一个例子是，家长管教孩子，可以威胁性地说，“如果你不答应放弃玩游戏，我要扣除你这个月的零花钱”；也可以许诺性地说，“如果你答应放弃玩游戏，我就不扣除你这个月的零花钱”。同样，许诺性的声明也可以变成威胁性的声明。这样，从分析的角度来看，就没有必要对威胁性声明和许诺性声明加以区分了。其实质都是发出声明的一方希望以此来影响对方的行动。因此，下文就把这些声明统称为“威胁”。
例4：师生博弈
“威胁”是现实生活中经常遇到的问题。比如，员工可能扬言，如果不给加薪就报复上司；热恋中的女子可能威胁说，如果男方与她分手，她就不再活下去；存在领土争议的国家可能宣称，如果对方不让步，就诉诸武力，等等。当博弈的一方发出威胁，接到威胁的一方就需要判断这一威胁是否可信。如前述分析，这一威胁可信性问题的根源是动态博弈中事前最优和事后最优的不一致性。而适用于静态博弈的解概念——纳什均衡并没有考虑这种动态不一致性。因此，当我们用纳什均衡概念来求解动态博弈时，有可能会出现包含不可置信威胁(non-credible threat)的纳什均衡。
下面我们通过分析学校里的师生博弈来说明这一问题，见下图。学校设计的课程是为了给学生传授知识，考试的目的是通过评价学生的成绩督促学生认真学习。出于职业道德和声誉的考虑，老师一般会根据学生答题的情况给出公平的分数，如及格还是不及格。但无论实际考得如何，学生都希望老师给个好成绩，至少及格，因为考试成绩关系到学生的利益，包括能不能顺利毕业，以及能否找到满意的工作。现假定有一个学生平时没有好好学习，期末考试考得不好，到不了60分。他去找老师希望老师能够让他及格。因此，我们有如下的师生博弈：

老师先行动，他的策略是判卷时给学生及格或不及格；学生后行动，他的策略是依据老师所给他的成绩来决定自己是欣然接受这一成绩还是要报复老师。所谓欣然接受是指认可老师给出的分数；所谓报复老师是指对老师采取一些人身或名誉伤害的行动。具体来说，学生(学生有两个信息集，其每个行动集有2个行动，所以共有4个策略选择)会有4个策略可选择：
策略1：如果老师给及格，则欣然接受；如果给不及格，则报复老师。
策略2：如果老师给及格，则报复老师；如果给不及格，则欣然接受。
策略3：不管老师是否给及格，都欣然接受。
策略4：不管老师是否给及格，都报复老师。

双方的收益情况是：如果老师违心给了学生及格，学生没有报复他，他的收益为-1，学生的收益为1；如果他违心给了学生及格，但学生还是报复了他，则他的收益为-10，此时学生也因为报复老师被学校处分，收益也为-10；如果老师秉公给了学生不及格，学生报复，则老师为-10，学生也为-10；如果老师秉公给了学生不及格，学生接受，则老师收益为1，学生为-1，见图4。可以将学生上述的4种策略相应地简记为（接受，报复）、（报复，接受）、（接受，接受）、（报复，报复）。这里，（接受，报复）读为：如果老师给及格，就接受；如果老师给不及格，就报复。类似地，（报复，接受）、（接受，接受）、（报复，报复）可以做相应的解读，因而上述博弈用下图所示的策略式来描述。

通过划线法求解这个博弈的纳什均衡，可以发现共有三个纳什均衡：
第一个纳什均衡是“老师选择及格，学生选择（接受，报复）”。均衡结果是：老师选择及格，学生不报复；双方的收益为：老师-1，学生1。意思是，学生前来找老师时声称自己将选择（接受，报复），即老师给及格就接受，不给及格就报复。老师担心自己会报复，违心地打了及格，故收益为-1。而学生呢，本来自己不会及格，现在及格了，故收益为1。这一纳什均衡隐含着老师屈从学生的威胁。但学生如果真的报复老师的话，又会遭受学校更为严厉的处罚，使得他的收益成为-10。因此，如果学生理性的话，应不会选择报复。进一步，如果老师知道学生是理性的，就不应该相信其威胁。所以，这一纳什均衡尽管满足互为最优，但却包含了一个不可置信（non-creditable）的威胁。
第二个纳什均衡是“老师选择不及格，学生选择（报复，接受）”。均衡结果是：老师选择不及格，学生不报复；双方的收益为：老师1，学生-1。直观含义是，学生声称老师给及格就报复，不给及格就接受，而老师则该给不及格就给了不及格。老师因为公正评分，得到的收益为1，而学生选择接受，得到不及格的结果，收益为-1。但这一纳什均衡中，学生的策略（报复，接受）要求在老师给及格的情况下选择报复，但报复又会让其得到-10的收益。所以，这其实也是一个不可置信的威胁。
第三个纳什均衡是“老师选择不及格，学生选择（接受，接受）”。均衡结果是：老师选择不及格，学生接受；双方的收益为：老师1，学生-1。意思是，学生的态度很端正，不管老师给不给及格，自己都能接受，老师则实事求是，该给不及格就给了不及格。老师因为公正评分，得到的收益为1，而学生选择接受，得到不及格的结果，收益为-1。这个纳什均衡比较合理，没有包含不可置信的威胁在里面。
上述三个纳什均衡中的前两个都包含了不可置信的威胁。为什么这两个纳什均衡会包含不可置信的威胁或者说不合理的策略呢？这是因为动态博弈中会出现动态不一致性：事先最优策略和事后最优策略会不一样。学生事先宣布其要采取的策略（比如“及格则接受，不及格就报复”等），从事后看可能并不是最优，因为如果老师真的判了不及格（或及格），学生的最优选择是接受。因而这样的威胁是不可信的。这就意味着，我们不能简单地把纳什均衡应用到动态博弈中。动态博弈需要能够反映动态一致性、排除不可置信威胁的均衡概念。因此，我们需要对原来的纳什均衡概念进行改进。

四、子博弈精炼纳什均衡(Subgame Perfect Nash Equilibrium,SPNE)

由于纳什均衡在动态博弈中不能排除不可信的行为选择，不是真正具有稳定性的均衡概念，因此需要发展新的均衡概念以满足动态博弈分析的需要。

3.1子博弈

由一个动态博弈第一阶段以后的某阶段开始的后续博弈阶段构成，有初始信息集和进行博弈所需的全部信息，能够自成一个博弈的原博弈组成部分，称为原动态博弈的一个“子博弈”。首先子博弈不能包括原博弈的第一个阶段，这也意味着动态博弈本身不是自己的子博弈。其次子博弈必须有一个明确的初始信息集，意味着子博弈不能分割任何信息集，有多结点信息集不完美信息博弈可能不存在子博弈（例如好天气坏天气博弈）。
据定义，整个博弈总是一个子博弈，且在完全信息扩展式博弈中，每一个决策结点都可以归纳出一个子博弈。如下图，结点1、结点2、结点5属于子博弈，而结点3和结点4不属于子博弈。

结点3要分割信息集，如果切断这个结点之后的所有分支，就要切割结点4的信息集；结点4不是单结信息集。

子博弈图5	子博弈图6

每层虚线框都代表了一个子博弈，可见上图中具有多级子博弈。

3.2子博弈精炼纳什均衡

例5：匹配硬币博弈
假定有两个玩家，玩家1先行，把一枚硬币放在桌子上，正面朝上（Head）或反面朝上（Tail）。玩家2看到玩家1的选择，再投一枚硬币，正面朝上或反面朝上。如果硬币都是正面或都是反面，玩家1得到两个硬币，如果硬币一正一反，则玩家2得到两个硬币。这个过程的博弈树如图7所示：

图7	图8

解：在静态博弈（同动）中，由于每个玩家只移动一次，不区分行动和策略。然而，在扩展式博弈中，行动是玩家在特定结点上可用的选择，策略是为参与人的每个决策结点分配行动的相机选择（Contigent PLay）。例如，在匹配硬币博弈中，玩家1的纯策略为H、T；玩家2的纯策略为Hh, Ht, Th, Tt。对于玩家2的相机选择，有两种方法可以确定最佳行动方案：

玩家2可以事先思考哪个相机选择是最好的，相对于玩家1的特定策略
玩家2可以在博弈时判断一个行动在到达的结点是否是最优的

容易得到匹配硬币博弈的策略式支付矩阵为：

玩家1\玩家2	Hh	Ht	Th	Tt
Head	1,-1	1,-1	-1,1	-1, 1
Tail	-1, 1	1,-1	-1, 1	1, -1

可知两个纯策略纳什均衡为：(Head, Th)、(Tail, Th)。
例6：父子博弈
现讨论一个新的博弈：玩家1为儿子（S），玩家2为父亲（F）。父亲要让儿子和女友分手，如果分手（End），博弈结束，儿子收益为1，父亲收益为2；如果维持（Cont），父亲决定是否剥夺儿子的继承权；如果剥夺（D），二人收益为0；如果不夺（A），儿子收益为2，父亲收益为1，见上面图8，这一套路满满的电视剧剧情，用决策树表达为策略式如下：

玩家1\玩家2	D	A
End	1,2	1,2
Cont	0, 0	2,1

两个纯策略纳什均衡为：(End, D)、(Cont, A)。
但(End, D)在逻辑上不太对，如果儿子错误地继续这段关系，父亲不会想要剥夺继承权。在这里，剥夺继承权的威胁(threat)是不可信的(non-credible)，因为如果儿子无视这种威胁并继续恋爱，父亲就不会想要实施这种威胁。
上述分析中遗漏了什么呢？剥夺（D）可以被认为是相对于维持（Cont）的“最优”，因为我们只考虑了博弈开始时的收益。我们没有考虑在儿子选择继续的情况下，剥夺（D）和不夺（A）的收益进行比较。要解决这个问题，就要以达到特定的决策结点为条件考虑策略的收益。
如果一个完全信息动态博弈的一个策略组合，满足在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么该均衡就是一个“子博弈精炼纳什均衡”。

子博弈精炼纳什均衡与纳什均衡的根本不同之处，也是这个概念的价值所在，就在于它能够排除均衡策略中不可信的威胁或承诺，因此是真正稳定的。子博弈精炼纳什均衡能排除不可信行为选择的原因是，虽然包含不可信行为选择的策略组合可以构成整个博率的纳什均衡，但不可信行为至少在某些子博弈中无法构成纳什均衡，因此会被排除出去。
在法律保障力度不足的开金矿博弈中：（借，打，分）是整个博弈的纳什均衡（任何一方都不能改变自己的策略而得益，甲选择分了，如果不分而乙选择打，则收益下降，因此仍是纳什均衡），但在第二级子博弈中并不是纳什均衡（因为乙选择打在这个小的子博弈里来说就不是纳什均衡），因此不是“子博弈精炼纳什均衡”。这也就验证了子博弈精炼纳什均衡能够排除不可信的威胁，而（不借，不打；不分）才是子博弈精炼纳什均衡。
此时第二阶段甲的选择结点，第三阶段乙的选择结点为“不在选择路径上”，两博弈方策略中在这两个结点的选择为“不在均衡路径上的选择”。All in all子博弈精炼纳什均衡也是纳什均衡，是比纳什均衡更强的均衡概念，且是动态博弈分析最核心的概念。动态博弈分析必须先找出它们的子博弈精炼纳什均衡，求动态博弈子博弈精炼纳什均衡的基本方法是逆推归纳法。逆推归纳法从动态博弈的最后一级子博弈开始，逐步找博弈方在各级子博弈中的最优选择。逆推归纳法确定的各博弈方策略不可能包含不可信的行为选择，找出的均衡策略组合一定是子博弈精炼纳什均衡。
（Selten，1965）如果参与者的策略在每一子博弈中都构成纳什均衡，则称纳什均衡是子博弈完美的。任何有限的完全信息动态博弈（即任何参与者有限、每一参与者的可行策略集有限的博弈）都存在子博弈精炼纳什均衡，也许包含混合战略。子博弈完美要求所有决策结点的策略选择都是最优的，即局部决策都是最优的，因为每一个决策结点都是某个参与人在决策，他都选择对自己最优的行动或策略，这由经济人假设所决定。

例7：房地产开发博弈
两个房地产开发商就是否开发房地产进行博弈。后动者可以观察到先动者的策略，如下图所示：

解：两个决策者A,B面对如下的相机选择，其支付矩阵(A先做决策，B后做决策）：

A\B	开发，开发	开发，不开发	不开发，开发	不开发，不开发
开发	-3，-3	-3，-3	1，0	1，0
不开发	0，1	0，0	0，1	0，0

其中每行是决策者A的策略，每列是决策者B的策略。注意对于B而言，策略不是只有开发和不开发两种的。因为两者不再是同时决策，B可以观察到A所做的决策，所以势必要对A做的开发或者不开发的决策各自做出反应，此处{开发，不开发}意为A选择开发时B选择开发，A选择不开发时B选择不开发，之后我们都沿用这一记法。
对纳什均衡做出标记，有（不开发，{开发，开发}），（开发，{不开发，开发}），（开发，{不开发，不开发}）三个纳什均衡，但是这三个纳什均衡并不都是合理的。首先子博弈精炼纳什均衡首先必须是纳什均衡，这个是非常显然的，如果连纳什均衡都不是，子博弈精炼纳什均衡不可能是一个稳定的均衡。所以子博弈纳什均衡必须出在上面这个博弈的三种纳什均衡里面。
之前讲过纳什均衡的问题在于前决策者不一定考虑到了后决策者的想法，所以我们引入一个概念叫序贯理性：不论过去发生了什么，参与人应该在博弈的每一个时点上最优化自己的决策。对于纳什均衡而言，博弈只要求在该均衡的均衡路径上的每一个决策结都做到最优——均衡路径是从初始决策结到给定的纳什均衡的支付函数的路径。但是在“为什么选择这条路径”的回答上是含糊的。序贯理性则要求不仅对于均衡路径要是最优的，而且对于非均衡路径也需要是最优的——策略需要给出对于非均衡情况（也就是要求“所有子博弈”，虽然很多子博弈实际上不会发生）的应对方式，从而说明“我这一条均衡路径就是最优的”。
根据这一原则，我们对上述三个纳什均衡进行筛选：

（1）（不开发，{开发，开发}）策略显然不是一个子博弈精炼纳什均衡。因为如果A选择开发（尽管这不是A的均衡策略，但是请牢记我们需要的是包括非均衡路径在内的所有路径），B的选择是不开发。
（2）（开发，{不开发，开发}）策略是一个子博弈精炼纳什均衡，因为如果A选择了不开发，B选择开发确实是最优的行动。
（3）（开发，{不开发，不开发}）策略不是一个子博弈精炼纳什均衡。因为如果A选择了不开发，B相比选择不开发，选择开发才是一个最优的行动。
所以存在的唯一子博弈精炼纳什均衡是（开发，{不开发，开发}）。

3.3逆向递推法

逆向递推法，也称为回溯推理法，是解决完全信息动态博弈的主要方法。其基本思路是从博弈的最后阶段开始，依次倒推每个参与者的最优策略。由于每个参与者在做出决策时都会考虑对方在下一步的反应，逆向递推法通过从后向前的推理，可以确保每个参与者在每一阶段都选择对自己最有利的行动(保证参与人的最优决策行为)，亦即每一阶段参与者的决策都是最优的，符合人的决策理性或序贯理性。最终，这种方法能够确定整个博弈的最优策略组合，即子博弈精炼纳什均衡。逆向递推法能够有效地排除不可置信威胁，即参与者不会做出事后对自己不利的威胁。通过这种方式，逆向递推法得出的均衡不仅是理性选择的结果，而且符合动态一致性原则，即博弈的各方在任何阶段都不会偏离自己的最优策略。因此，逆向递推法求得的子博弈精炼纳什均衡具有高度的合理性和稳定性。

逆向递推法的应用步骤
从最后一步开始分析：假设博弈进入最后一阶段，在此时，最后一个行动者面对的是前面参与者的行动结果。由于此时没有后续行动者，他只需要根据当前的局面选择能使自己收益最大化的策略。
倒推至前一阶段：一旦确定了最后一阶段的最优策略，我们就可以将其作为已知条件，倒推前一阶段的最优策略。此时，前一阶段的行动者知道后续行动者的反应，因此他会根据自己预期的收益来选择最优行动。
依次向前推导：通过上述方法，从最后一阶段逐步推导回到最初阶段。每一阶段的参与者都假设未来的参与者会理性行事，依据他们的反应来选择自己的最优策略。最终，通过这种逆向推理，可以得到每个参与者在每个节点的最优行动，从而确定整个博弈的均衡解。

假设有两个参与者，玩家1和玩家2，他们依次就如何分配一个蛋糕做出决定。博弈的规则如下：玩家1先提出一个分配方案（如他自己拿多少蛋糕，给玩家2多少蛋糕）。玩家2可以选择接受或拒绝。如果玩家2接受方案，蛋糕按照玩家1的提议进行分配；如果拒绝，蛋糕就浪费掉，双方都得不到任何东西。

逆向递推法求解过程。从最后一步开始推理：
在最后一步（即玩家2做出决定时）。玩家2面临两个选择，接受玩家1的分配方案，或拒绝。如果玩家2接受，就能得到一部分蛋糕；如果拒绝，双方都得不到蛋糕，收益为0。因此，玩家2会选择接受，只要分配给他的蛋糕不为0。玩家2的最优策略是在分到任何一块蛋糕时，都会接受，因为即使分到很小的一部分蛋糕，其收益都比拒绝后的0大。
倒推到前一步。知道了玩家2的策略之后，玩家1在提出分配方案时就会考虑玩家2的反应。玩家1知道，只要给玩家2分配一些蛋糕，玩家2就会接受。因此，玩家1的最优策略是分配给玩家2最少的一部分蛋糕（但不能是0，因为0会导致玩家2拒绝），并且自己尽可能多拿蛋糕。比如，玩家1可能提议：“我拿99%，你拿1%。” 玩家2会选择接受，因为1%的蛋糕总比0好。
通过逆向递推法，得出了博弈的均衡结果。玩家1会提议分给玩家2最少的一部分蛋糕，自己拿走大部分，而玩家2会接受这个提议。

例8：斯塔克伯格竞争
古诺模型实际上是假定两个寡头厂商同时作出各自的产量决策的。现在假设厂商1先决定它的产量，然后厂商2知道厂商1的产量后再做出它的产量决策。因此，在确定自己产量时，厂商1必须考虑厂商2将如何作出反应。其他假设与古诺模型相同，这一模型称为斯塔克伯格（Stackelberg）模型。斯塔克尔伯格竞争模型是一个价格领导模型，厂商之间存在着行动次序的区别。产量的决定依据以下次序：领导性厂商决定一个产量，然后跟随者厂商可以观察到这个产量，然后根据领导性厂商的产量来决定他自己的产量。要注意的是，领导性厂商在决定自己的产量的时候，充分了解跟随厂商会如何行动——这意味着领导性厂商可以知道跟随厂商的反应函数。
因此，领导性厂商自然会预期到自己决定的产量对跟随厂商的影响。正是考虑到这种影响的情况下，领导性厂商所决定的产量将是一个以跟随厂商的反应函数为约束的利润最大化产量。在斯塔克尔伯格模型中，领导性厂商的决策不再需要自己的反应函数。设市场需求价格函数为：

\[D=D(p_1+p_2)=a−b(p_1+p_2) \]

其中\(p_1\)和\(p_2\)分别是两个企业的产量。假设两企业的成本函数相同，都为\(C=cp\)，即：

\[\max p_2[a-b(p_1+p_2)]-cp_2 \]

在知道企业2对任意给定产量的反应后，企业1的最优产量模型为：

\[max p_1[a−b(p1+p2)]−cp_1，\quad s.t.p_2=g(p_1) \]

因此斯塔克尔伯格（Stackelberg）模型是先求解如下的优化模型：

\[maxp_2[a−b(p_1+p_2)]−cp_2 \]

得到\(p_2=g(p_1)\)
然后再求解如下的优化模型：

\[max p_1[a−b(p1+p2)]−cp_1，\quad s.t.p_2=g(p_1) \]

得到\(p_1\)，代入\(p_2=g(p_1)\)，得到\(p_2\)，如此得到斯塔克尔伯格均衡时的\((p_1，p_2)\)。
具体地，设市场需求价格函数为\(D=61.2−10∗(p_1+p_2)\)，两企业的成本函数都为\(C=1.2p\)，求斯塔克尔伯格均衡时两个企业的产量。（企业1为领导者，企业2为跟随者）
解：首先求解如下的优化模型：

\[max p_2[61.2−10∗(p_1+p_2)]−1.2p_2 \]

得到\(p_2=\frac{60-10p_1}{20}\)，然后求解下列优化模型

\[\max p_1[61.2-10*(p_1+p_2)]-1.2p_1，\quad s.t.\quad p_2=\frac{60-10p_1}{20} \]

得到结果为\(p_1=3，p_2=1.5\)。

子博弈精炼纳什均衡之所以比较复杂，主要体现在以下两个方面：
纳什均衡只检查整个博弈中的均衡路径，即均衡路径上的策略在整个博弈中是纳什均衡；而子博弈精炼纳什均衡需要检查均衡路径上的策略在每个子博弈中都是纳什均衡。除了均衡路径之外，子博弈精炼纳什均衡还需要检查非均衡路径，即非均衡路径中的策略在其涉及的每个子博弈中也是纳什均衡。（这往往是难点，因为即使均衡路径是唯一的，非均衡路径却可能有非常多条）

参考文献

1.【博弈论基础】完全信息动态博弈
2.【博弈论笔记】第三章完全且完美信息动态博弈
3.完全信息动态博弈与子博弈精炼纳什均衡

posted @ 2023-08-15 23:26 郝hai 阅读(5277) 评论(0) 收藏举报

刷新页面返回顶部

haohai9309

格物致知，知行合一！