对策论——博弈概述(一)
对策论即现代博弈论,是研究在特定规则和条件下,多方参与者如何进行决策的数学理论。社会及经济的发展带来了人与人之间或团体之间的竞争及矛盾,亟待新的理论创新解决这些问题,博弈论应运而生。博弈论广泛而深刻地改变了经济学家的思维方式,为研究各种经济现象开拓了新视野,取得了主流经济学的中心地位。现代博弈论起源于1944年J.冯·诺依曼和O.摩根斯顿的著作《博弈论与经济行为》。博弈论在运筹学中亦称竞赛论或对策论,是研究具有斗争或竞争性质现象的数学理论和方法,也是运筹学中的一个重要分支。虽然博弈论发展的历史并不长,但由于其研究的现象与人们的政治、经济、军事活动乃至日常生活等有着密切的联系,并且处理问题的方法又有明显特色,博弈论日益引起广泛的关注。
一 博弈问题的引入
在经济生活中,经常看到一些具有相互之间斗争或竞争性质的行为,这些行为最能体现博弈的内涵。在这类行为中,参加斗争或竞争的各方各自具有不同的目标和利益。为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。对策论就是研究对策行为中斗争各方是否存在着最合理的行动方案,以及如何找到这个合理的行动方案的数学理论和方法。
1.1 囚徒困境(Prisoner's Dilemma)
“囚徒困境”是博弈论流传最广的一个故事,在哲学、伦理学、社会学、政治学、经济学乃至生物学等学科中,获得了极为广泛的应用。1950年,由就职于兰德公司的梅里尔•弗勒德(MerrillFlood)和梅尔文•德雷希尔(MelvinDresher)拟定出一种相关困境的理论,后来由顾问艾伯特•塔克(AlbertTucker)以囚徒方式阐述。
故事的梗概是这样:有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离审讯。检察官说:“你的偷盗罪确凿,所以可以判你1年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,我只判你3个月的监禁,但你的同伙要被判10年刑。如果你拒不坦白,而被同伙检举,那么你就将被判10年刑,他只判3个月的监禁。但是,如果你们两人都坦白交代,那么,你们都要被判5年刑。”。
显然最好的策略是双方都抵赖,结果是大家都只被判1年,但是由于两人处于隔离的情况下无法串供。那么,囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方的选择;而即使他们能交谈,还是未必能够尽信对方不会反水。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何做出选择,这就是“囚徒困境”中的两难境地。
1.2 田忌赛马(Tianji Horse Race)
公元前四世纪的中国,处在诸侯割据的状态,历史上称为“战国时期”。赛马是当时最受齐国贵族欢迎的娱乐项目。上至国王,下到大臣,常常以赛马取乐,并以重金赌输赢。田忌多次与国王及其他大臣赌输赢,屡赌屡输。一天他赛马又输了,回家后闷闷不乐,谋士孙膑安慰他说:“下次有机会带我到马场看看,也许我能帮你。”
当又一次赛马时,孙膑随田忌来到赛马场,满朝文武官员和城里的平民也都来看热闹。孙膑了解到,大家的马按奔跑的速度分为上中下三等,等次不同装饰不同,各家的马依等次比赛,比赛为三赛二胜制。孙膑仔细观察后发现,田忌的马和其他人的马相差并不远,只是策略运用不当,以致失败。孙膑告诉田忌:“大将军,请放心,我有办法让你获胜。”田忌听后非常高兴,随即以千金作赌注约请国王与他赛马。国王在赛马中从没输过,所以欣然答应了田忌的邀请。
比赛前田忌按照孙膑的主意,用上等马鞍将下等马装饰起来,冒充上等马, 与齐王的上等马比赛。比赛开始,只见齐王的好马飞快地冲在前面,而田忌的马远远落在后面,国王得意地开怀大笑。 第二场比赛,还是按照孙膑的安排,田忌用自己的上等马与国王的中等马比赛,在一片喝彩中,只见田忌的马竟然冲到齐王的马前面,赢了第二场。关键的第三场,田忌的中等马和国王的下等马比赛,田忌的马又一次冲到国 王的马前面,结果二比一,田忌赢了国王。
从未输过比赛的国王目瞪口呆,他不知道田忌从哪里得到了这么好的赛马。这时田忌告诉齐王,他的胜利并不是因为找到了更好的马,而是用了计策。随后,他将孙膑的计策讲了出来,齐王恍然大悟,立刻把孙膑召入王宫。孙膑告诉齐王,在双方条件相当时,对策得当可以战胜对方,在双方条件相差很远时,对策得当也可将损失减低到最低程度。后来,国王任命孙膑为军师,指挥全国的军队。从此,孙膑协助田忌,改善齐军的作战方法,齐军在与别国军队的战争中因此屡屡取胜。
这个案例生动地告诉我们,巧妙地运用策略是多么的重要。在实力、条件一定的情况下,对己方力量和有利条件的巧妙调度和运用常会起到意想不到的效果。
1.3 古诺模型(Cournot Model)
考虑一个连续的模型,假设有\(n\)个工厂生产销售一样的产品,只不过商品的产量是连续的,即每个工厂可以选择的产量有无限多种。假设市场的容量是有限的,市场价是产品总量的减函数(即产品总产量越高,市场价格越低)。每个工厂可以独立选择自己的产量并且假设他们是同时决定自己的产量。
我们将这个问题表示为一个博弈过程,其中博弈的参与者为\(n\)个工厂,每个工厂的策略是自己工厂的产量。因为产量是连续值,因此每个工厂可供选择的产量有无数种,用函数的形式来表示连续模型。假设工厂 \(i\) 的产量为 \(c_i\) ,那么 \(\mathrm{n}\) 个工厂的总产量为 \(C=\sum_{i=1}^n c_i\) ,市场价格是总产量的减函数,我们 定义 \(f(x)\) 为 \(x\) 的减函数,那么市场价格可以表示为
因此工厂 \(i\) 的收益就是其产量与市场价格的乘积,表示为
我们假设工厂 \(i\) 生产单位产量的商品的成本为常数,记为 \(m\) ,那么它生产 \(c_i\) 产量的总成本是 \(m c_i\) 。所以工厂 \(i\) 的产量为 \(c_i\) 时的收益为
在这个博弈中,对于工厂\(i\),它的收益取决于(1)单位成本,(2)自己的产量(策略),(3)其他工厂的产量(策略)。因此工厂\(i\) 在做决策时要考虑到其他工厂的策略对自己的影响以及其他工厂对于自己的决策可能做出的反应(response)。这表明各个工厂在做决策时是相互依赖和相互影响的。
二 博弈论的要素和分类
博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。从以上例子可以看出,一个博弈包括以下几个要素:博弈的参与者、各博弈方可选择的全部行为或策略的集合、博弈的支付、博弈方的信息、博弈的次序、结果和均衡等。其中,参与者、策略和支付是博弈必不可少的三个基本要素。
2.1博弈的要素
博弈参与者
博弈的参与者又称博弈方或局中人,是指博弈中独立决策、独立承担结果的决策主体,他们可能是自然人,也可能是各种社会组织,如企业、政府、国家,甚至由某些国家组成的联合国等。参与者的划分标准是看他们是否统一决策、统一行动、统一承担结果等,即通常将利益一致的参与者作为一个博弈方,而不是看数量的多寡抑或规模的大小。一般地,若参与者为有限记局中人为\(i\),$i\in N=\lbrace1,2,\ldots,n \rbrace $ ,即共有\(n\)个博弈方。
参与者的策略
策略是指参与人选择行为的规则,也就是指参与人应该在什么条件下选择什么样的行动,以保证自身利益最大化。指每个博弈方在进行决策时(同时或先后,一次或多次)可以选择的方法、做法等。策略有纯策略和混合策略之分。纯策略是策略的一个最直接的概念,是指每个博弈方在博弈中可以选择采用的行动方案。记博弈方\(i\)的策略为\(s_i\) ,\(S_i\)为博弈方\(i\)可选择的策略组成的策略集合,又称策略空间,则\({s_i}\in{S_i}\) 。如囚徒困境中,两博弈方的策略空间均为(坦白,不坦白)。\(n\)个局中人各选择一个策略形成的向量\(s=(s_1,s_2,\ldots,s_n)\),称为策略组合(局势),囚徒困境中\(s\)=(坦白,坦白)为囚徒1、2的策略组合,全体策略组合 \(S={S_1}\times{S_2}\times ... \times {S_n}\)。
策略的另一种概念为在纯策略基础上形成的混合策略,它是在纯策略空间上的一种概率分布,表示博弈方实际博弈时根据这种概率分布在纯策略空间随机选择并加以实施的策略。
参与者的支付
参与者的支付则是指,在所有参与人都选择了各自的策略且博弈已经完成之后,参与人所得到的结果(如效用或利润)。参与者的支付即每个博弈方从各种策略组合中获得的收益的效用,它是策略组合\(s\)的函数,所以也被称为支付函数。记博弈方\(i\)的支付函数为\(u_i{(s)}\) 。如囚徒困境中的囚徒1、2对应\(s\)={坦白,坦白)的支付为\(u_1{(s)}\)=\(u_2{(s)}\)=-5 。\(u_i=u_i(s_1,\cdots,s_n)\)也称为参与者在策略组合\(s\)下的效用函数, \(u=(u_1,\cdots,u_n)\)为效用向量。
参与者的信息
信息是博弈方有关博弈的知识,如有关其他博弈方的策略、收益等知识。博弈中博弈方掌握信息的多少是影响其策略选择的一个重要因素,直接关系到决策的准确性。博弈方应尽可能多地收集有关博弈的信息,从而在采取策略进行决策时掌握主动。
参与者的决策次序
在现实的各种决策活动中,当存在多个独立决策方进行决策时,有时候这些博弈方必须同时做出选择,因为这样能保证公平合理。而很多时候各博弈方的决策又必须有先后之分,并且,在一些博弈中每个博弈方还要作不止一次的决策选择,这就免不了有一个次序问题。因此,规定一个博弈就必须规定其中的次序,不同的次序必然是不同的博弈,即使其他方面都相同。
博弈结果和均衡
结果指博弈中博弈方的行动所产生的每一可能情形。而均衡是指所有博弈方的最优策略的组合,记为\(s^*=(s_1^*,s_1^*,\ldots,s_n^*)\) ,其中\(s_i^*\)为第\(i\)个博弈方在均衡的情况下的最优策略,即第\(i\)个博弈方在考虑其他博弈方策略选择的情况下,有针对性地选择最大化自己支付的策略。囚徒困境中有四种可能的结果,如(坦白,不坦白),(坦白,坦白)等,而均衡只有一个,\(s^*\)=(坦白,坦白)。
2.2 博弈的分类
为了便于分析博弈问题,结合博弈的构成要素,可以对博弈进行分类。
单人博弈、两人博弈和多人博弈
按博弈中参与人数目的多少,将博弈分为单人博弈、两人博弈和多人博弈。
单人博弈即只存在一个博弈方的博弈。由于不存在与其他博弈方之间的作用与反作用,这种博弈的求解其实是前面几个章节中所讲的最优化问题,因此不再将其列为博弈论研究的对象。
两人博弈就是存在两个各自独立决策,但策略和利益具有相互依存与制约关系的博弈方的决策问题。两人博弈是博弈问题中最常见、也是研究得最多的博弈类型。前面介绍的囚徒的困境、齐威王田忌赛马都是两人博弈问题。日常生活中的棋牌、球类比赛,以及经济活动中两个厂商之间的竞争、谈判、兼并收购、劳资纠纷等都是两人博弈问题。对于两人博弈应注意以下问题:
第一,两人博弈中的两个博弈方之间并不总是相互对抗的,有时候也会出现两博弈方利益一致的情形。如一家生产电视机的公司和一家生产放像机的公司在采用制式问题上的博弈就是一种非对抗性的博弈。因为如果两公司采用相同的制式,各自的机器可以相互匹配,就会给双方带来产品互补性的利益,而如果两公司采用的制式不同,则双方都无法享有这些利益,因此这两个公司在这种博弈关系中的利益是一致的而不是对立的。
第二,在两人博弈中,掌握信息较多并不能保证利益也一定较多。例如信息较多的博弈方常常更清楚过度竞争的危险,因此为了避免不理智的恶性过度竞争,避免两败俱伤,只能采取较为保守的策略,从而也只能得到较少的利益。相反那些信息较少、对危险了解较少的博弈方却可能因为不会顾忌后果而掌握了主动,从而得到更多的利益。这与现实生活中的许多现象是非常吻合的。
第三,个人追求最大自身利益的行为,常常并不能导致实现社会的最大利益,也常常不能真正实现个人自身的最大利益。今后我们遇到的许多博弈也都能说明这一点。
实际上,以上几个特性都不仅是在两人博弈问题中存在,在两人以上的多人博弈中,这些结论一般也是成立的。
多人博弈是指有三个或三个以上博弈方参加的博弈。多人博弈也是博弈方在意识到其他博弈方的存在,意识到其他博弈方对自己决策的反应和反作用存在的情况下,寻求自身最大利益的决策活动,只是现在其他博弈方不是一个,而是有两个或更多。因而,它们的基本性质和特征与两人博弈是相似的,我们常常可以用与研究两人博弈同样的思路和方法来研究它们,或将两人博弈分析中得到的结论直接推广到多人博弈。
当然,由于多人博弈中有比两人博弈更多的追求自身利益的独立决策者,因此多人博弈中策略和利益的相互依存关系也更为复杂,任一博弈方的决策及其所引起的反应比两人博弈中要复杂得多。
有限博弈和无限博弈
根据各博弈方可选策略数量的多少,将博弈分为有限博弈和无限博弈。
有限博弈是指各个博弈方的可选策略都是有限的博弈。如囚徒困境、齐威王与田忌赛马都是有限博弈。有限博弈只有有限种可能的结果,可用支付矩阵法、扩展型法或简单罗列的办法,将所有的策略、结果及对应的支付列出。
无限博弈是指至少有某些博弈方的策略是无限多个的博弈。这种博弈的全部策略、结果或支付一般只能用数集或函数加以表示。
零和博弈、常和博弈和变和博弈
按参加博弈的各个博弈方从博弈中所获得的利益的总和,可将博弈划分为零和博弈、常和博弈和变和博弈。
零和博弈是所有博弈方的得益总和始终为0的博弈,是常见的博弈类型,同时也是被研究得最早、最多的博弈问题。在这种博弈问题中,博弈方之间的利益始终是对立的,一方的收益必定是另一方的损失,某些博弈方的赢肯定是来源于其他博弈方的输。如前面所介绍的齐威王田忌赛马就是这样的博弈。
常和博弈是所有博弈方的得益总和始终为某一非零常数的博弈,也是很普遍的博弈类型。如在几个人或几个方面之间分配固定数额的奖金、财产或利润的讨价还价,就是这种博弈问题。常和博弈也是一类有特殊意义的博弈。常和博弈可以看作零和博弈的扩展,零和博弈则可以看作常和博弈的特例。与零和博弈一样,常和博弈中各博弈方之间利益关系也是对立的,博弈方之间的基本关系也是竞争关系。不过,由于常和博弈中利益的对立性体现在各自得到利益的多少,结果可能出现大家分得合理或满意的一份,因此也比较容易相互妥协。
零和博弈和常和博弈以外的所有博弈都称为“变和博弈”。变和博弈在不同策略组合(结果)下各博弈方的利益之和往往是不相同的。如前面介绍的囚徒的困境就是变和博弈。变和博弈是最一般的博弈类型,常和博弈和零和博弈都是它的特例。变和博弈的结果存在社会总得益大小方面的区别。这也就意味着在博弈方之间存在相互配合(不是指串通,是指各博弈方在利益驱动下各自自觉、独立采取的合作态度和行为),争取较大社会总利益和个人利益的可能性。因此,这种博弈的结果可以从社会总得益的角度分为“有效率的”或“无效率的”、“低效率的”,即可以站在社会利益的立场上对它们作效率方面的评价。
静态博弈和动态博弈
按参与人行动的先后顺序,博弈可以分为静态博弈和动态博弈。
静态博弈是指所有博弈方同时或可看作同时选择策略的博弈。即各博弈方是同时决策的,或者虽然各博弈方决策的时间不一定真正一致,但在他们作出选择之前不允许知道其他博弈方的策略,在知道其他博弈方的策略之后则不能改变自己的选择,从而各博弈方的选择仍然可以看作是同时作出的。囚徒困境、齐威王与田忌赛马均为静态博弈。
动态博弈指的是参与人的行动有先后顺序,而且后行动者能够观察到先行动者所选择的行动的博弈。除了各博弈方同时决策的静态博弈以外,也有大量现实决策活动构成的博弈中,各博弈方的选择和行动不仅有先后次序,而且后选择、后行动的博弈方在自己选择或行动之前,可以看到其他博弈方的选择、行动,甚至还包括自己的选择和行动。这种博弈无论在哪种意义上都无法看作是同时决策的静态博弈,我们把这种博弈称为“动态博弈”,也称“多阶段博弈”。经济活动中有大量的动态博弈问题,如经常见到的商业大战,因为常常是各家轮流出新招,所以也是动态博弈问题;还有如各种商业谈判、讨价还价,也常常是双方或者
多方之间你来我往很多回合的较量,因此也属于动态博弈问题。
动态博弈 | 静态博弈 | |
---|---|---|
表示形式 | 博弈树 | 支付矩阵 Payoff matrix |
对手先前的行动 | Yes | No |
时间先后 | Yes | No |
其他 | 扩展博弈 Extensive game | 策略博弈Strategic game |
完全信息博弈和不完全信息博弈
根据参与人所掌握的信息可以把博弈分为完全信息博弈和不完全信息博弈。
完全信息博弈是指每个参与人对其他参与人的策略空间及支付函数有准确认识的博弈。如囚徒困境中每个囚徒都很清楚双方的支付组合,是完全信息博弈。
不完全信息博弈是指至少部分博弈方不完全了解其他博弈方支付情况的博弈。现实很多博弈就属于这种博弈类型,因为很多竞争对手都想方设法隐藏自己的行为,以防止其对手针对自己的策略选择采取相应的竞争策略而取胜,如投标、拍卖活动等。
博弈论框架划分
把参与人行动顺序和掌握的信息结合起来划分,可以得到四种类型的博弈,即:完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。与它们相对应的四种均衡是:纳什均衡、子博弈完美纳什均衡、贝叶斯纳什均衡及完美贝叶斯纳什均衡。四种均衡如下表所示。
需要指出的是这四种综合的博弈类型属于非合作性质的博弈,即决策主体完全根据自己的利益来决定自己的选择,违背自己利益的任何表示都是不可信的,例如“如果你和我合作,我将把收益的一半分给你”。类似这样的许诺在非合作博弈中是没有效力的,原因是没有任何机制保证博弈结束后局中人会按照自己的承诺支付自己收益的一半给对方。而在合作博弈中,决策主体间达成了可强制执行的合作协议,也就是说合作是必然成立的,合作者总会从整体的利益出发选择使收益之和最大的策略组合,然后按照协议进行利益分配。因此,可将合作博弈的多个博弈方看成具有单一利益的决策主体,这时合作博弈也就成了决策论研究的内容。
三 总结
博弈论 Game Theory( 亦称对策论或赛局理论) 是研究理性决策者之间战略互动的数学模型 Mathematical models ,是研究具有斗争或竞争性质现象的理论和方法。博弈论既是现代数学的一个新分支,也是运筹学的一个重要学科,在社会科学 Social science 、逻辑学 Logic、系统科学 Systems science和计算机科学 Computer science 中也有应用。博弈论最初产生于零和游戏 Zero-sum game(也称零和博弈),在这种游戏中,赢家的利润来自于输家的亏损,每个参与者的收益或损失由其他参与者的损失或收益来平衡,各方损益总和永远为“零”。今天,博弈论适用于广泛的行为关系,已成为人类、动物和计算机逻辑决策科学的总称。