博弈论——博弈要素和模型分类(一)

博弈论与信息经济学的产生与发展引发了一场深刻的经济学革命,因为它代表着一种新概念、新方法论、新分析方法和一种全新的思想。博弈论主要研究模型化了的激励结构间的相互作用,考虑博弈中的个体的预测行为和实际行为,并研究它们的优化策略。博弈论与信息经济学不仅仅能在学术领域中光彩夺目,在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。在普通的企业管理中,经营者要熟练地掌握管理之术,必须能够自动自发并自觉地运用博弈论与信息经济学。在日常生活中,人们可以凭借博弈论与信息经济学的思想方法来分析进而解决实际问题。

一、博弈实例

博弈就是个人或组织在一定的环境条件与既定的规则下,同时或先后,仅仅一次或是进行多次地选择策略并实施,从而得到某种结果的过程。我们生活在这个世界上,就不可避免地要与他人打交道,这是一个利益交换的过程,也就无可避免地要面对各种矛盾和冲突。简单说来博弈论就是研究,人们如何进行决策、以及这种决策的如何达到均衡问题。每个博弈者在决定采取何种行动时,不但要根据自身的利益和目的行事,还必须考虑到他的决策行为对其他人的可能影响,以及其他人的反应行为的可能后果,通过选择最佳行动计划,来寻求收益或效用的最大化。

1.1 囚徒困境

故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。但这个帕累托改进办不到,因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。

1.2 旅行者困境

两个旅行者从一个以出产细瓷花瓶著称的地方旅行回来,他们都买了花瓶。提取行李的时候,发现花瓶被摔坏了,于是他们向航空公司索赔。航空公司知道花瓶的价格大概在八九十元的价位浮动,但是不知道两位旅客买的时候的确切价格是多少。于是,航空公司请两位旅客在100元以内自己写下花瓶的价格。如果两人写的一样,航空公司将认为他们讲真话,就按照他们写的数额赔偿;如果两人写的不一样,航空公司就认定写得低的旅客讲的是真话,并且原则上按这个低的价格赔偿,同时,航空公司对讲真话的旅客奖励2元,对讲假话的旅客罚款2元。
为了获取最大赔偿而言,本来甲乙双方最好的策略,就是都写100元,这样两人都能够获赔100元。可是不,甲很聪明,他想:如果我少写1元变成99元,而乙会写100元,这样我将得到101元。何乐而不为?所以他准备写99元。可是乙更聪明,他算计到甲要算计他写99元,于是他准备写98元。想不到甲还要更聪明一个层次,估计到乙要写98元来坑他,于是他准备写97元……大家知道,下象棋的时候,不是说要多“看”几步吗,“看”得越远,胜算越大。你多看两步,我比你更强多看三步,你多看四步,我比你更老谋深算多看五步。在花瓶索赔的例子中,如果两个人都“彻底理性”,都能看透十几步甚至几十步上百步,那么上面那样“精明比赛”的结果,最后落到每个人都只写一两元的地步。事实上,在彻底理性的假设之下,这个博弈唯一的纳什均衡,是两人都写0。

1.3 智猪博弈

猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。那么,两只猪各会采取什么策略?答案是:小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲历亲为了。
许多人并未读过“智猪博弈”的故事,但是却在自觉地使用小猪的策略。股市上等待庄家抬轿的散户;等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不创造效益但分享成果的人,等等。比如,公司的激励制度设计,奖励力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成本高不说,员工的积极性并不一定很高。这相当于“智猪博弈”增量方案所描述的情形。但是如果奖励力度不大,而且见者有份(不劳动的“小猪”也有),一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。

1.4 酒吧博弈问题(barproblem)

酒吧博弈问题是美国人W.B.Arthur1994年在《美国经济评论》发表的题为《归纳论证和有界理性》一问中提出的,然后他又从1999年的《科学》杂志上发表的《复杂性和经济学》一文中阐述了这个博弈。""该博弈是说:有一群人,例如n=100,每个周末,均要决定是去一酒吧活动还是呆在家里。酒吧的容量是有限的,假定是60人。如果某人预测去酒吧的人超过60人,那么他决定去还是不去?……每个参与者或决策者面临的信息只是以前去酒吧的人数,只能根据以前的人数的信息来归纳出策略来。这是一个典型的动态博弈问题……通过计算机的模型实验,阿瑟得出了一个有意思的结果:不同的行动者是根据自己的归纳来行动的,并且,去酒吧的人数没有一个固定的规律,然而,经过一段时间以后,去的平均人数总是趋于60。阿瑟说,预测者自组织到一个均衡系统中去和不去的人群,或形成一个生态稳定系统……这就是酒吧问题。酒吧问题所反映的是这样一个社会现象,正象阿瑟教授说的那样,我们在许多行动中,要猜测别人的行动,然而我们没有更多关于他人的信息,我们只有通过分析过去的历史来预测未来。

二、博弈的的构成要素

点击博弈论关键词博弈由很多因素构成,每个博弈至少包含七个基本要素:
参与人(Players):指作决策的个体,每个参与人的目标都是通过选择行为来最大化自身的效用。有时候,模型会明确引入“虚拟参与人(pseudo-players)”这个概念,这个角色通常以纯机械般的方式来采取德。比如说“自然”就是一种虚拟参与人,它在博弈的特定时点上以特定的概率随机选择行为。常用\(N\)表示参与人的有限集合。
行动(Action):参与人\(i\) 的行动或活动以\(a_i\)表示,是他所能做的某一选择,也是参与人所选择的决策。 每个参与人\(i\)行动集为\(A_i\),表示他可以选择的行动的集合。

2.1 信息(Information)

信息是参与人拥有的有关博弈的的所有知识。如关于其他参与人行动或策略的知识、有关参与人收益支付的知识,特别是有关其他参与人的特征和行动的知识。信息是博弈中的重要变量,信息结构变了博弈的结果就会发生改变。
在模型化的时候,通常以信息集(information set)的概念来进行,信息集指的是参与人认为博弈可能已到达的结的集合。信息集可以表示出自然的不可观测行为的。在动态博弈中(参与者的行动有先后顺序),信息是至关重要的,为此先了解博弈的扩展式(extensive form),扩展式可以进一步以博弈树的形式表示。

图1 图2

图1中博弈有两位参与者,参与者1可从{L, R}中选择对应的行动\(a_1\)​,接着参与者2观测到参与者1的行动后从{L′, R'} 中选择 \(a_2\),两参与者的收益分别为$ u_1(a_1,a_2)$和 \(u_2(a_1,a_2)\)。在动态博弈中可能会出现这么一种情况,见图2,参与人\(i\)知道现在是该谁行动给了,但却不知道博弈已经到达了博弈树的哪个具体位置,或者说该参与人无法区分他处在哪个节点上。考虑下图这种情况,此时参与人2不知道参与人1做出何种选择,无法区分他所处在左边的节点上还是右边的节点。这些无法区分的节点集合称为信息集
信息是以信息集(information set)的概念来模型化的,不妨将参与人的信息集看做他在特定时点对于不同变量的取值的了解,信息集的要素包括参与人认为可能的不同值。若信息集有很多元素的话,则表明存在参与人无法排除的许多取值。若它只有一个元素,则表明他准确地知道变量的取值。
不同的信息结构对应博弈的不同划分

信息种类 含义
完美 (perfect) 每个信息集都是单结点的
完全(complete) 自然不首先行动或它的最初行动被每个参与人所观察到
对称(symetric) 没有参与人在行动时或在终点结处有与其他参与人不同的信息

完美信息博弈满足了对于信息的最强要求,在这样的博弈中,每个参与人对于自己所处博弈树中的位置总是一清二楚的,没有行动是同时进行的,且所有参与人都观察到了自然的行动。
共同知识和私人信息
共同知识:是关于参与人对某种知识(如参与人的理性、参与人的支付等)了解程度的一种描述,如果某种知识成为共同知识就意味着——每个参与人都知道它,并且每个参与人都知道每个参与人都知道它,每个参与人都知道每个参与人都知道每个参与人都知道它……
在现有的博弈分析框架下,一般都假设博弈问题的结构(或者对博弈问题的描述)为共同知识。
私人信息:指任何一个他拥有但不是该博弈中所有参与人共同知识的信息。由于存在私人信息,便有了信息不对称的问题。

2.2 策略(Strategies)

一个关于参与人行为的完备集合,它告诉参与人在每一种可预见的情况下选择什么行动(即使参与人并不预期那种情况会真的出现),也是博弈的进程和次序。
行动表示的是某个时点的决策变量,策略是给定信息下的行动规则,策略与行动是两个不同的概念。策略是一个与过程有关的概念,行动是与时序无关的动作。策略是行动的规则,而不是行动的本身。在静态博弈中,所有参与人同时行动,没有任何人能获得他人行动的信息,故策略与行动是一回事。这时的策略选择就变成简单的行动选择,策略空间就是行动空间。但在动态博弈中策略和行动则是两个不同的概念。参与人的策略是一个关于其行动程序的完备集合(Complete Set),它告诉参与人在每一种可预见的情况下情况下选择什么行动,即使参与人并不预期那种情况真的会出现。这一点请务必谨记在心。严格地讲,即使参与人的策略告诉他在1989年应自杀,这一策略同时也应该说明若他在1990年仍活着,则应采取什么行动。在对子博弈完美均衡(Subgame Perfect Equilibrium)的讨论中,这种小心区分是至关重要的。这一描述的完备性也意味着策略与行动的不同之处在于它是不可观侧的。行动是物质上的,但策略仅仅是意识上的。

支付(Payoffs):采取某种策略后,参与人各自获得的一个利益盈亏的一个估量。局中人\(i\)收益函数\(u_i\)\(A_1 \times A_2 \times \dots A_N \rightarrow R\)表示在一组策略下它的收益。
结果(Outcome):指博弈结束之后,建模者从行为、支付及其它变量的取值中所挑选出来的他所感兴趣的要素的集合。\(a = (a_1,a_2,\dots,a_N)\)是一组策略构成组合;策略空间\(A = A_1 \times A_2 \times \dots A_N\),则\(a \in A\)对手策略\(a_{-i} = (a_1,\dots,a_{i-1}, a_{i+1},\dots,a_N)\),则\(a=(a_i,a_{-i})\) 。  
均衡(Equilibria):指参与人最大化各自的支付时所选取的策略。通俗地说,在博弈达到均衡时,每一个参与人都不可能因为单方面改变自己的策略而增加收益,于是各方为了自己利益的最大化而选择了某种最优策略,并与其他对手达成了某种暂时的平衡。在外界环境没有变化的情况下,倘若有关各方坚持原有的利益最大化原则并理性面对现实,那么这种平衡状况就能够长期保持稳定。
博弈论模型可用5个要素来确定\(G=\{P,A,I,S,U\}\),分别是上面5个要素的首字母。结果和均衡是模型解的表达,即可预测稳定的参与人行为,这也是博弈论所研究问题要达成的目的。

2.3 石油输出国组织(OPEC)博弈

石油输出国成员国选择其年产量。OPEC成员国在进行一场博弈,其原因在于,沙特阿拉伯知道科威特是在对自己石油产量进行预测之后才决定其自身产量的,而且两国的产量都会影响世界油价。
例1:OPEC的博弈

博弈要素 描述
参与人 沙特阿拉伯、利比亚、委内瑞拉、科威特、尼日利亚
行动 每个国家选择在1988年任何市场价格下的供给安排,即各自的石油产量
信息 所有国家在作出供给决策时,知道市场对石油的需求是强还是弱,但他们并不知道其他国家的供给安排
策略 每个国家的策略是在不披露任何其他国家行动的情况下,决定在强需求和弱需求情况下的石油供给量。每个国家会考虑维持收入的策略,以避免政变
博弈顺序 1. 全体参与人同时决定各自的供给安排。
2. 自然选择市场需求状态,需求要么是强的,要么是弱的,二者的概率相同
支付 如果某国的石油收入高于维持政治稳定所需的水平,则该国的支付为 +100;如果收入低于所需水平,则支付为 -100
结果 每个国家的供给量、需求状态、市场价格、收入,最后判断是否发生政变(基于收入水平)

一个博弈的描述包括:参与人、策略、支付,行动与信息则是它的建筑材料,参与人、行动与结果合起来称之为博弈的规则(Rules Of The Game),建模者的目的在于运用博弈的规则来确定均衡。

三、博弈模型的分类

博弈模型可以按照不同的分类方式进行分类,比如按照博弈者出招的顺序,博弈者对其他参与博弈者特征、策略空间和收益是否了解进行分类。

3.1静态博弈和动态博弈

按照博弈者出招的顺序、博弈持续时间和重复次数,博弈可以分为静态博弈(Static Game)和动态博弈(Dynamic Game)。静态博弈指的是参与博弈的各方同时采取策略,这些博弈者的收益取决于博弈者们不同的策略组合。因此静态博弈又称为“同时行动的博弈”(Simultaneous-Move Games)。有时候博弈方采取策略有先后,但是他们并不知道之前其他人做出的策略。比如“囚徒困境”中罪犯1采取策略后,轮到罪犯2采取策略时他并不知道罪犯1所做出的策略。动态博弈(序贯博弈)指的是在博弈中,参与博弈的博弈方所采取策略是有先后顺序的(Sequential-Move),且博弈者能够知道先采取策略者所选择的策略。

3.2零和博弈和变和博弈

根据博弈方的收益,博弈可以分为零和博弈(Zero-Sum Game)与非零和博弈(Non-Zero-Sum Game),常和博弈(Constant-Sum Game)与变和博弈(Variable-Sum Game)

3.3完全信息博弈和不完全信息博弈

根据博弈者对其他参与博弈者所了解的信息的完全程度,博弈可以分为完全信息博弈(Complete Information Game)与不完全信息博弈(Incomplete Information Game),以及完美信息博弈(Perfect Information Game)与不完美信息博弈(Imperfect Information Game),确定的博弈(Certainty Game)与不确定的博弈(Uncertain Game),对称信息博弈(Symmetric Game)与非对称信息博弈(Asymmetric Game)等等。
其中,完全信息是指博弈中每一个博弈者对其他博弈者的特征、策略空间和收益函数都了解,也就是博弈者的收益集(Pay offs)是所有博弈者都知道的。完美信息是指博弈者完全知道在他采取策略时其他博弈者的所有策略信息。完美信息是针对记忆而言,也就是他知道博弈已经发生过程的所有信息。又或者说,如果博弈者在采取策略时观察到他所处的信息节点是唯一的,即他知道以前发生的所有事情,如果所处的信息节点不唯一,说明他对之前的信息没有完美的记忆(不知道博弈过程是怎么过来的)。因此,完全信息不一定是完美的,不完全信息一定不是完美的
如果某个博弈者对其他博弈者的特征、策略空间和收益函数了解不够全面,或者说不是对所有博弈者的上述信息了解全面。这种博弈叫做不完全信息博弈,博弈者的目标是最大化自己收益的期望。在不完全信息博弈中,首先行动的是自然(Nature),自然决定博弈者以多大的可能性采取某种策略,这个可能性只有本人知道。确定的博弈指的是不存在由自然做出这种行动的博弈,要不然就是不确定的博弈。

3.4合作博弈和非合作博弈

按照博弈者之间是否有合作关系,博弈可以分为合作博弈(Cooperative Game)和非合作博弈(Non-Cooperative Game)。合作博弈指的是博弈者之间有着一定的协议,他们需要在协议允许的范围内博弈。比如两个企业之前通过一定的谈判达成协议,对各自的产量或价格进行操作,以达到共同垄断市场的行为。反之如果博弈者不能通过谈判达成一个有约束力的协议来限制博弈者的策略,那么就是非合作博弈。非合作博弈可以分为:完全信息静态博弈完全信息动态博弈不完全信息静态博弈不完全信息动态博弈,非合作博弈是现代博弈论的根基,上面介绍的是博弈论的主流框架。与之对应的有四种均衡:纳什均衡(Nash Equilibrium)、子博弈精炼纳什均衡(Subgame Perfect Nash Equilibrium)、贝叶斯纳什均衡(Bayesian Nash Equilibrium)、精炼贝叶斯纳什均衡(Perfect Bayesian Nash Equilibrium)。它们的关系如下表

四、博弈模型的策略式表达

集合\(G = \{N, \{ A_i \}_{i=1}^N, \{ u_i \}_{i=1}^N \}\)称作策略式博弈G,其中\(N,A_i,u_i\)就是前面定义的那样。

例2:囚徒困境策略式

\[G = \{\{1,2\}, \{ A_1,A_2 \}, \{ u_1,u_2 \} \} \]

局中人:\(N = \{1,2\}\),表示1、2两个囚徒
行动和策略集:坦白,沉默\(A_1 = A_2 = \{坦白,沉默\}\),为了书写简便,用\(c\)表示坦白,用\(d\)表示沉默
收益函数:

\[u_{1}(c, c)=-6, u_{1}(c, d)=0, u_{1}(d, d)=-1, u_{1}(d, c)=-12 \]

\[u_{2}(c, c)=-6, u_{2}(c, d)=-12, u_{2}(d, d)=-1, u_{2}(d, c)=0 \]

用收益矩阵表示如下:

例3:智猪博弈策略式
猪圈里有两头猪:大猪和小猪,猪圈的一头有一个猪食槽,另一头装有一个按纽,控制着猪食的供应,按一下就会有10单位的猪食进槽,但谁按谁就要付出相当于2单位猪食的成本;当猪食进槽时,若大猪先到则大猪可吃到9单位;小猪先到则小猪可吃到4单位,大猪吃6单位;若两者同时到,大猪可吃7单位,小猪吃3单位。

\[G = \{\{1,2\}, \{ A_1,A_2 \}, \{ u_1,u_2 \} \} \]

局中人:\(N = \{大猪,小猪\}=\{1,2\}\),1、2代表大猪和小组
行动和策略集:按,等\(A_1 = A_2 = \{按,等\}\)
收益函数:

\[u_{1}(按, 按)=5, u_{1}(按, 等)=4, u_{1}(等, 按)=9,u_{1}(等, 等)=0 \]

\[u_{2}(按, 按)=1, u_{1}(按, 等)=4, u_{1}(等, 按)=-1,u_{1}(等, 等)=0 \]

大猪 \ 小猪
5,1 4,4
9,-1 0,0

如果两只猪同时踩踏板,同时跑向食槽,大猪吃进7份,得益5份,小猪吃进3份,实得1份;如果大猪踩踏板后跑向食槽,这时小猪抢先,吃进4份,实得4份,大猪吃进6份,付出2份,得益4份;如果大猪等待,小猪踩踏板,大猪先吃,吃进9份,得益9份,小猪吃进1份,但是付出了2份,实得-1份;如果双方都懒得动,所得都是0。

例4:鹰鸽博弈

鹰鸽博弈(Hawk-Dove Game)是一种经典的博弈论模型,用于模拟动物在资源争夺中的行为策略。在这一模型中,参与者可以选择两种策略:鹰(攻击性)或鸽(和平性)。鹰策略意味着采取攻击性行为,以获取更多资源,而鸽策略则表示避免冲突,通过和平方式分享资源。

鹰 (Hawk) 鸽 (Dove)
鹰 (Hawk) (B, B)=(-2,-2) (C, D)=(2,0)
鸽 (Dove) (D, C)=(0,2) (A, A)=(1,1)

在这个策略矩阵中,( A ) 代表鸽鸽相遇时的收益,因为它们和平地分享资源;( B ) 代表鹰鹰相遇时的收益,由于双方争斗,收益较低;( C ) 代表鹰遇到鸽时的收益,鹰因攻击性而获得更多资源;( D ) 代表鸽遇到鹰时的收益,由于鸽的和平性,它获得较少资源。鹰鸽博弈的关键在于平衡攻击性和和平性,以最大化个体的收益。在实际应用中,它可以帮助理解个体在面对资源竞争时的行为选择。

例5:分钱博弈(Dividing Money)
两个人各报一个至多为100的非负整数。若所报的数字之和不超过100,则每人得到所报的钱数(多余的钱充公);若两人所报的数字之和超过100且数目不同,则报较小数的人得到自己所报的钱数,而另一个人则得到剩余的钱;若两人所报的数字之和超过100且数目相同,则每个人得到50元。

分钱博弈是静态博弈,没有信息差,博弈的三要素

  • 参与人集合: $N = {1, 2} $
  • 策略集合\(S_t = \{0, 1, 2, \ldots, 100\},t = 1, 2\)
  • 参与人 \(i\) 的支付

    \[u_i = \begin{cases} s_i & \text{当 } s_i + s_j \leq 100 \text{ ( } i, j = 1 \text{ 或 } 2) \\ s_i & \text{当 } s_i + s_j > 100, \text{ 且 } s_i < s_j \\ 100 - s_j & \text{当 } s_i + s_j > 100, \text{ 且 } s_i > s_j \\ 50 & \text{当 } s_i + s_j > 100, \text{ 且 } s_i = s_j \end{cases} \]

例6:古诺竞争博弈
设两个厂商\(\{1, 2\}\)生产和销售同一种商品,厂商\(i\)生产的数量记为\(q_i\)。 每件商品生产成本都是\(c\),售价是:\(max(0,a-b(q_1+q_2))\)

\[G =\{\{1,2\}, \{ q_1,q_2 \}, \{ u_1,u_2 \} \} \]

其中,收益\(u_i(q_1,q_2) = (max(0,a-b(q_1+q_2))-c)q_i(售价-成本)\)

参考文献

  1. 博弈论(Game Theory)入门——基础知识
  2. 博弈论笔记(一):策略式博弈及其纳什均衡
  3. 博弈的分类及组成要素
posted @ 2023-08-09 17:14  郝hai  阅读(2673)  评论(0编辑  收藏  举报