博弈论——囚徒困境的重复博弈（十二）

前面讨论的博弈都属于“一次性”：每个人做出一个决策后就结束了。但现实中，人们可能会重复参与同一个博弈。两个囚徒有可能在局子里再次相会，老师和学生会在若干年的时间里为考试而反复博弈，寡头厂商之间每天都在勾心斗角……，就产生了重复博弈的理论研究。重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释，如在囚徒困境中，一次博弈的唯一均衡是不合作（即坦白），但如果博弈无限重复，合作就可能出现。重复博弈有效是因为背叛会受到惩罚，最直接的惩罚是下次我也会背叛你，而你得不到合作的好处。

0、重复博弈案例

在博弈论中，重复博弈指的是一个博弈的多次重复进行，参与者基于过去的行为调整自己的策略。

公共资源的悲剧（Tragedy of the Commons）
在这个场景中，多个参与者共享一个有限的资源（如草地、渔场等）。如果每个人都为了自己的短期利益过度使用资源，最终导致资源枯竭，所有人都受损。重复博弈中，惩罚机制通过设立配额或罚款来限制资源的过度使用。例如，如果某个参与者过度放牧，其他人可以对其行为进行惩罚，避免资源的枯竭。

斯坦福监狱实验（Stanford Prison Experiment）
虽然不是传统意义上的博弈论模型，斯坦福监狱实验展示了在极端情境下，如何通过惩罚机制影响人类行为。实验中的“警卫”和“囚犯”之间的互动形成了一个重复博弈，警卫通过施加惩罚来控制囚犯，而囚犯则通过反抗或合作来调整自己的行为。随着实验的进行，双方的行为逐渐变化，警卫对囚犯的惩罚和控制逐步加强，而囚犯则通过反抗机制对不公平的待遇进行回应。

股东与经理的代理问题（Principal-Agent Problem）
在公司管理中，股东（委托人）与经理（代理人）之间存在利益冲突。股东希望经理能够最大化公司价值，但经理可能出于个人利益选择不同的行为。通过设计绩效奖励和惩罚机制，股东可以在重复博弈中激励经理选择合作策略，遵循股东的利益。例如，经理如果未能达到预定的财务目标，可能会面临奖金的削减或职位的更换。

合约执行中的背离行为（Contractual Deviations）
在长期合约关系中，如供应商与分销商之间的协议，双方如果都严格履行合同条款，则合作双方都能受益。但如果某一方在某一阶段背离合同（例如供应商降低质量或延迟交货），另一方可能会采取报复行为。重复博弈中，惩罚机制可以通过罚款或合同终止来对不守约的行为进行惩罚，从而促进合同双方长期维持合作关系。

这几个案例展示了在不同的环境下，重复博弈和惩罚机制如何帮助协调参与者的行为，推动合作或减少冲突。无论是社会行为、经济交易还是政治互动，惩罚机制在维护长期稳定的合作中都发挥着至关重要的作用。

一、重复博弈概述

在重复博弈中，参与者不仅需要考虑当前的决策，还需要考虑他们的决策如何影响未来博弈的结果。在重复博弈中，参与者需要考虑长期利益，建立信任，并选择最佳策略以实现最有利的结果。
重复博弈可以用于多种不同的背景和情境，包括商业、政治和生活中的各种决策情况。在单阶段博弈中，参与人的选择无法建立在对手前阶段行动的基础上，因此参与人会毫不顾忌其他博弈方的利益。而在重复博弈中，过去的行动可以被观察到，参与人的选择可以建立在其他博弈方过去行动的基础上，要考虑到不能引起其他博弈方在后面阶段的对抗、报复或恶性竞争。如过去你欺骗我，这次我不与你合作，过去合作愉快，这次还选择合作。由于过去行动的多样性，每个参与人的策略空间得到扩大，使得合作成为可能。有时，由于一方做出了一种合作的姿态，可能使其他博弈方在今后阶段采取合作的态度，从而实现共同的长期利益。如在一次囚徒困境问题中，合作明明对所有参与人都有利，但是个体理性决定了不合作的结果。而在重复囚徒困境问题中，参与人会认识到合作对自己最有利，从而所有的参与人会选择合作，因此重复博弈可使理性人走出囚徒困境。
在重复博弈中，可信性和子博弈完美性是两个非常重要的概念，可信性指动态博弈中先行动的博弈方是否相信后行动的博弈方会采取对自己有利或不利的行为。如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡，则称该策略组合具有子博弈完美性。子博弈完美性是判断均衡是否稳定可靠的重要依据。由于长期利益对短期行为的制约作用，因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信，从而使博弈的均衡结果出现更多的可能性。重复博弈可分为有限期重复博弈和无限期重复博弈。如果参与人明显察觉到有一个确定的最后时期，并明确该最后时期信息进入了参与人的策略考虑范围，则称重复博弈为有限期重复博弈，否则称重复博弈为无限期重复博弈。

二、有限重复博弈——囚徒困境

回到囚徒困境的支付矩阵之中：

囚徒困境的结论是：双方都选择坦白。对于囚犯来说，显然是合谋不坦白更有利，但他们没有这么做。如果将他们抓了又放，放了再抓，如此重复 $T$ 次（且囚徒知道重复 $T$ 次这一点），结果会如何？
我们仍然可以使用逆向归纳法得出结论。在第 $T$ 期（最后一期），无论之前发生了什么，双方的策略一定都是坦白。这是因为两个囚徒已经失去了合作的可能性和必要性，双方做的是“最后一锤子买卖”，当然不会不坦白。
返回第 $T-1$ 期。双方面临着同样的问题：无论第 $T-1$ 期做何种决策，第 $T$ 期的结果都是确定的。固然其中一个参与人可以承诺在第 $T$ 期选择不坦白（也称合作策略），以鼓励另一位参与者在 $T-1$ 期与他一起选择不坦白。但这个承诺是不稳定的、不可信的。因为第 $T$ 期无论如何都是选择坦白（也称背叛策略）更有利。既然如此，就可以把 $T-1$ 期的博弈视为最后一期博弈，结果是同样的：第 $T-1$ 期双方都选择坦白。依照这个方法上溯，每一期博弈的结果都将是不合作——双方都选择坦白。
这个结论具有一般性。我们给出如下定理：
令 $G(T)$ 表示把单次博弈 $G$ 重复 $T$ 次的重复博弈， $T<\infty$ （因此是有限重复博弈）。如果 $G$ 有唯一的纳什均衡，则重复博弈的唯一的子博弈完美均衡的结果，是博弈 $G$ 的纳什均衡重复 $T$ 次。即：在博弈的每个阶段出现的结果，都是单次博弈的那个结果。

三、无限重复博弈——囚徒困境

无限重复博弈有两种解释：一是博弈的重复次数 $T=\infty$ ，二是参与者事先不知道博弈的次数。无论采取何种解释，可以肯定的是：逆向归纳法不再适用（因为最后一次博弈不得而知），无限重复博弈的结果和有限重复博弈的结果一定是截然不同的。
无名氏定理（folk theorem，也译作民间定理）表明，（在一定的条件下）任何结果都可能是无限重复博弈的均衡。也就是说，囚徒之间是可能达成合作，也有可能在某一阶段中有人背叛。背叛之后，双方也可能继续合作，也可能不会再合作。总之，可能性是多种多样的。
一种常见的策略叫做触发策略（trigger strategy）。指的是只要对手在博弈的每个阶段都采取合作策略，那么该参与人也将在每个阶段合作；一旦对手在某个阶段选择背叛策略，该参与人就会在未来一段时期内采取不合作策略以示惩罚。
仅持续一期的惩罚策略被称作礼尚往来策略（tit-for-tat strategy，也译作以牙还牙策略、针尖对麦芒策略）。简而言之，这是一种“不记仇”的策略：就像小朋友过家家一样，如果你这次对我不好，下次我也不会对你好；如果你这次回心转意了，下次我们就和好如初。两国之间的外交政策常常会出现这种情况。
一旦遭到背叛就选择永远不合作的惩罚策略被称作冷酷策略（grim strategy）。即：一次不合作意味着永远的不合作，“老死不相往来”。
现在我们来证明：如果两个囚徒都采用“冷酷策略”，一旦一个人选择坦白，则之后两个人都会选择坦白。为了证明这是一个子博弈完美均衡，我们需要确认参与人不会通过改变策略来获得更多的收益。
如果两人都选择不坦白，那么参与人在每个时期都可以获得2的得益。但是每一期得益的时间价值是不同的。为此，我们需要引入贴现因子（discount factor，也称折现因子、折现系数）。设贴现因子为 $\delta$ ，则此时总得益的贴现和为：

V_{1} = 2 + 2 δ + 2 δ^{2} + \dots = 2 \sum_{n = 0}^{\infty} δ^{n} = \frac{2}{1 - δ}

${{\rm{V}}_1}{\rm{ = }}2{\rm{ + }}2\delta {\rm{ + }}2{\delta ^2}{\rm{ + }} \cdots {\rm{ = }}2\sum\limits_{n = 0}^\infty {{\delta ^n}} = \frac{2}{{1 - \delta }}$

注：请注意，折现率和贴现因子是两个相似但不同的概念。假设债券的年折现率（或投资收益率）为 $r$ ，则贴现因子等于 $\frac{1}{1+r}$ 。

假设某个参与人在第一期选择背叛，那么他在当期可以获得3的得益。但在这一期之后，两个人都会选择坦白，每个人的得益都变为1。此时总得益的贴现和为：

V_{2} = 3 + δ + δ^{2} + \dots = 3 + \sum_{n = 1}^{\infty} δ^{n} = 3 + \frac{δ}{1 - δ}

${{\rm{V}}_2}{\rm{ = 3 + }}\delta {\rm{ + }}{\delta ^2}{\rm{ + }} \cdots {\rm{ = 3 + }}\sum\limits_{n = 1}^\infty {{\delta ^n}} = 3 + \frac{\delta }{{1 - \delta }}$

这里使用了等比级数的公式，但请注意求和符号下 $n$ 的起始数。
只有当 $V_1\ge V_2$ 时，参与人才会采取“冷酷策略”,“冷酷策略”是这个无限重复博弈的子博弈完美均衡。即：

\frac{2}{1 - δ} \geq 3 + \frac{δ}{1 - δ}

$\frac{2}{{1 - \delta }} \ge 3 + \frac{\delta }{{1 - \delta }}$

解得 $\delta \ge \frac{1}{2}$ 。也就是说，贴现率较高时，参与人就会选择合作。而当贴现率小于 $\frac{1}{2}$ 时，合作就不可能达成，无限重复囚徒困境博弈的最终结果就是双方都会坦白。
某种程度上，贴现因子衡量了人们的“耐心程度”。如果耐心不足，人们就往往偏好眼前的利益，而对未来收益流的现值估计较低，合作也更不容易达成；如果耐心足够，人们会更注重长远利益，对未来收益流的现值估计较高，合作也更容易达成。

四、承诺与信念Beliefs——走出囚徒困境

在动态博弈中，虽然先动者的行为会影响后动者的行为（从而获得一定的先动优势），但后动者也可以传递一些信息，来影响先动者的决策。例如后动者可以对先动者提出一些威胁，然而有些威胁是不可置信的，比如这些威胁付出的成本比获得的收益还高。在威胁的博弈分析中 ,被威胁者 (C)又称进攻者或挑战者, 威胁者(D)又称防卫者，威胁情景被看成是挑战者与威胁者之间的策略互动：挑战者试图打破现状以获取更大的利益，威胁者则通过发出武力威胁阻吓挑战者以保持现状。在如下图所示的标准两阶段威胁模型中，挑战者有“挑战 ”和“维持 ”两种策略，威胁者有“抗击 ”和“容忍”两种策略。当挑战者采取“维持”策略时 ,博弈结局为维持现状 (简写为 SQ)，此时挑战者、威胁者的效用分别为UCs和UDs。当挑战者采取“挑战”策略时 ,如果威胁者采取“抗击”策略 ,则博弈结局为冲突 (简写为WAR)，此时挑战者、威胁者的效用分别为UCw和UDw；如果防卫者采取“容忍”策略，则博弈结局为挑战者赢 (简写为CWIN )，此时挑战者、威胁者的效用分别为 UCc和 UDc。按照威胁概念的定义，挑战者的偏好为 CWIN > SQ >WAR，这意味着当挑战者发起挑战时,其结局或者优于 SQ 或者劣于 SQ，因此风险与收益并存；威胁者的偏好为 CWIN < SQ且 WAR < SQ，即维持现状是威胁者最好的结局，这也是威慑者慑阻挑战者发起挑战的根本动因，否则威胁者将挑战现状，转化为挑战者。在博弈双方的多种互动格局中，威胁威慑格局的形成是有条件的 ,只有在上述挑战者与威胁者的偏好序同时成立的条件下，才能形成与威胁定义相一致的威胁格局：挑战者有动因发起挑战，但要冒与威胁者产生冲突的风险，威胁者力图慑阻挑战者的挑战，因为维持现状是威胁者最好的结局。

为了使自己的策略行动显得可信，就要建立自己的可信度。这里我们提出九种建立自己可信度的方法：
　　一是承诺，就是在策略行动时候，必须同时采取一个附加或从属的行动。例如，我一定会完成这个任务的，附加的行动就是如果不完成自愿扣除奖金，这样更有说服力。
　　二是信誉，所以要尽可能的避免反悔，反悔会丧失自己可信度方面的信誉。说到做到，能够逐渐的增加自己的信誉值。
　　三是合同，为了使你的承诺显得可信，一个最直接的方法就是同意自己在不能遵守承诺时候接受某种惩罚，并将其书面化。当然单有合同并不能解决可信度问题。签订有法律效益的合同，能够让双方都更加放心。
　　四是切断沟通，切断沟通在于它可以使一个行动变得不可逆转，例如遗嘱，一旦一方死亡，再没有谈判的机会了。
　　五是破釜沉舟，军队通常借助断绝自己的后路的做法而达到遵守承诺的目标，这个也适用于日常生活中做决策时使用，切断自己的一切后路，才能全力以赴。并不是所有的行动都适合有B计划，切断自己的所有的后路，才能全力以赴。六是让后果超出你的控制，要想减小过错的后果，就找到一个刚好能够威胁对方又不会太过火，将权力交给对方。例如，如果你真的犯错我就将你移交法律机关，这样谁都不能包庇。
　　七是小步前进，完全信任对方意味着要承担很大的风险，在这种情况下，大家都不愿意信任对方，可以将内容分成一小个一小个部分，开始进行，即使出错也可以尽量减少损失。例如，将一项重要的任务，分给多个人完成，不把鸡蛋放在一个篮子里，减少风险。
　　八是团队合作，其他人可以帮助我们建立可信的承诺，假设有多个人愿意为你担保，则证明你的可信度很高。就是需要提高自己在团队中的信誉。
　　九是受托谈判代理人，将双方的行动由第三方实施，并且切断和代理人联系，可以提高自己的可信度。例如，找第三方公证，常见的有遗嘱公证，婚前公证等等。

无限次重复古诺模型
两寡头进行古诺产量博弈，如果市场需求 $P=150 -Q$ ，边际成本 $c=30$ ，且没有固定成本，贴现因子为0.9。如果市场竞争形势长期稳定，问两个厂商能否维持垄断产量?
解****：(1)古诺竞争时的纳什均衡:
设厂商1的产量为 $q_1$ ，厂商2的产量为 $q_2$ ，则得益函数为:

{\begin{cases} u_{1} = (150 - q_{1} - q_{2}) q_{1} - 30 q_{1} = 120 q_{1} - q_{1} q_{2} - q_{1}^{2} \\ u_{2} = (150 - q_{1} - q_{2}) q_{2} - 30 q_{2} = 120 q_{2} - q_{1} q_{2} - q_{2}^{2} \end{cases} ​

$\begin{cases} u_1 = ( 150 − q_1 − q_2 ) q_1 − 30 q_1 = 120 q_1 − q_1 q_2 − q _1^2 \\ u_2 = ( 150 − q_1 − q_2 ) q_2 − 30 q_2 = 120 q_2 − q_1 q_2 − q _2^2 \end{cases} $

由一阶条件得反应函数为:
联立反应函数解得纳什均衡为: $q_1=q_2=40$ , $u_1=u_2=1600$
(2)垄断时的最优解:
垄断总收益函数为:

U = (150 - Q) Q - 30 Q U = (150 - Q) Q - 30 Q

$U =(150-Q)Q-30QU=(150−Q)Q−30Q$

由一阶条件得最优垄断总产量为: $Q=60$ ，两个厂商的产量为 $q_1=q_2=30$ ，垄断总利润为 $U=3600$ ，各个厂商的利润为 $u_1=u_2=1800$
有了上面这些数据，就可以拟定出一个扳机战略：
扳机战略:在第一阶段生产垄断产量的一半30（合作产略是60，所以每个企业单独的产量就是30）;在第 $t$ 阶段，如果前 $t-1$ 阶段的结果都是(30，30)，则继续生产30，否则生产古诺产量 $q_c = 40$
(3)设贴现因子为 $i$
①若厂商都维持垄断产量，则长期收益为

Π_{1} = 1800 + 1800 i + 1800 i^{2} + \dots = \frac{1800}{1 - i} + \dots = \frac{1800}{1 - i} ​

$\Pi_1=1800+1800 \mathrm{i}+1800 i^2+\cdots=\frac{1800}{1-i} +⋯= \frac{1800}{1-i} $

②若厂商在第一阶段背叛，则其背叛后的收益计算如下:
在对方生成垄断产量30的前提下，自己的得益函数为:

π = (150 - q - 30) q - 30 q = 90 q - q^{2}

$\pi=(150-q-30) q-30 q=90 q-q^2$

解得最有产量 $q=45$ ，最优利润为 $u=2025$
由此得背叛参与人长期收益为:

Π_{2} = 2025 + 1600 i + 1600 i^{2} + \dots = 2025 + \frac{1600 i}{1 - i}

$\Pi_2=2025+1600 \mathrm{i}+1600 i^2+\cdots=2025+\frac{1600 i}{1-i}$

③若两个厂商维持垄断产量，则满足的条件为: $\Pi_{1}>\Pi_2$ ，即:

\frac{1800}{1 - i} > 2025 + \frac{1600 i}{1 - i} ​

$\frac{1800}{1-i}>2025+\frac{1600 i}{1-i} $

得 $i>0.529$ 。由于现在贴现因子为0.9，远大于0.529。所以如果市场有长期稳定性，两个厂商能维持垄断产量。

五、总结

在重复博弈囚徒困境中，这一情境会进行多轮，并且双方的选择会受到之前选择的影响。合作和背叛之间的选择会随时间演变，因为双方会根据彼此的历史行为来做出决策。这一问题的重要性在于它可以用来探讨合作和背叛的策略，以及如何在多次互动中最大化自己的利益。研究者使用不同的博弈策略和数学模型来研究重复博弈囚徒困境，并寻找最优的策略。一种著名的策略是"针锋相对策略"（tit-for-tat），即在首轮选择合作，然后根据对方的前一轮选择来做出相同的选择。这种策略通常在实验中表现良好，因为它鼓励双方在多轮博弈中保持合作，从而获得更大的总体利益。