博弈论——演化博弈ESS策略（二十）

演化博弈理论的英文名是Evolutionary Game Theory。演化博弈理论一般会探讨博弈论在生物学中的应用，尤其是纳什均衡的一种很重要的生物学角度的解释：纳什均衡是无数次动态博弈的稳定状态，也可以说成：物竞天择，适者生存。虽然演化思想最初来自于生物学领域，但演化博弈论和演化经济学都把“创新，选择和扩散”视为演化的主要机制，演化博弈论也为演化经济学提供了微观基础，演化博弈的基本形成如下图：

在企业的合作竞争中，参与人之间是有差别的，经济环境与博弈问题本身的复杂性所导致的信息不完全和参与人的有限理性问题也显而易见。与传统博弈理论不同，演化博弈理论并不要求参与人是完全理性的，也不要求完全信息的条件。在方法论上，它不同于博弈论将重点放在静态均衡和比较静态均衡上，强调的是一种动态的均衡。如今，经济学家们运用演化博弈论分析社会习惯、规范、制度或体制形成的影响因素以及解释其形成过程，也取得了令人瞩目的成绩。演化博弈论目前成为演化经济学的一个重要分析手段，并逐渐发展成一个经济学的新领域。

一、演化博弈概述

不同于传统的经典博弈论，演化博弈理论是把博弈理论分析和动态演化过程分析结合起来的一种理论，其强调的是一种动态理论。Maynard Smith和Price将生物进化理论引入到博弈论提出演化博弈论，在演化博弈论中的纳什均衡是参与方根据各自所面对的环境不断调整决策最终实现均衡的动态过程。
在传统博弈理论中，常常假定参与人是完全理性的，且参与人在完全信息条件下进行的，但在现实的经济生活中的参与人来讲，参与人的完全理性与完全信息的条件是很难实现的。在企业的合作竞争中，参与人之间是有差别的，经济环境与博弈问题本身的复杂性所导致的信息不完全和参与人的有限理性问题是显而易见的。完全理性对博弈主体的理性要求十分严格，因为理性程度高可以使得博弈数学分析更加方便可靠。然而实际生活中的决策环境十分复杂，信息存在着不对称等现象，博弈方很难掌握所有的信息并进行完全理性的思考，因此有限理性才是比较实际的做法。很显然有限理性博弈需要考虑的因素更多，它比完全理性博弈更加复杂，而演化博弈就是一种有限理性的博弈方法。
总之，演化博弈论(Evolutionary Game Theory)把博弈理论分析和动态演化过程分析结合起来的一种理论。在演化博弈理论中,演化稳定策略(Evolutionary Stable Strategy, ESS)和复制动态(Replication Dynamics)是两个核心概念。演化化思想对社会科学的影响。例如,在市场竞争中,我们不必要去理性的想那个策略才是最优的，最后能够在市场存活下来的企业，一定是适应能力最强的公司。博弈论的策略对应生物学中的基因,博弈论的收益对应生物学中的适应度。在生物学中应用的博弈论与经济学中的传统博弈论最大区别就是非完全理性的选择。演化稳定策略是指在博弈的过程中,博弈双方由于有限理性,博弈方不可能一开始就找到最优策略以及最优均衡点。于是,博弈方在博弈的过程中需要不断进行学习,有过策略失误会逐渐改正,并不断模仿和改进过去自己和别人的最有利策略。经过一段时间的模仿和改错,所有的博弈方都会趋于某个稳定的策略。

二、钢铁产业一体化发展演化博弈

供给侧改革是顺应和引领世界经济发展新常态的重要创新措施，对我国结构性、体制性的问题形成决定性影响，是创新驱动国家发展战略的重要突破口。加快钢铁工业供给侧改革的步伐，对于助力钢铁产业的高质量发展有着重大意义。

2.1 博弈策略

假设在钢铁产业发展过程中，钢铁企业中一些（子群）S与另一些（子群）C进行博弈，他们的博弈策略有两种，一种以一体化发展战略为主导，致力于在供应链中与合作企业一起应对市场需求，这里称为“一体化”策略R；一种没有树立一体化经营战略，着眼于独自发展的企业经营思维，这里称为“非一体化”策略T。博弈方策略的选择依赖于对企业成长阶段、技术水平、目标市场、收益以及风险加以权衡并采取相应的行为，这种选择不存在一个显性和约（强制性），也没有一个组织来设计或安排，而是根据达尔文的《进化论》自发选择并且针对实际情况及时调整自己的策略的。

2.2 收益矩阵

有大量的研究表明，实施一体化战略对于产业上下游协同是最优的，亦即非一体化发展本身是低效的，实体企业中一些实力较强的钢铁企业和下游企业纷纷建立这种一体化关系。由于收益是策略选择后的结果，所以价值收益是策略选择的本质。
在赢得矩阵中, 设 $\pi_s, \pi_c$ 分别为表示钢铁企业群选择 “非一体化” 策略的收益, 这些收益都是通过独自经营从市场中所实现的收益, 这是市场竞争状况的反映。 $\Delta V_s, \Delta V_c$ 分别为博弈企业方选择 “一体化” 策略所得到的溢价收益, 是扣除一体化专用性投资后所增加的收益（见前述）。设溢价收益的总和为 $\Delta V=\Delta V_s+\Delta V_m$ , 它表示钢铁产业的共同利益。
$\pi_s+\Delta V_{c s}, \pi_c-C_{c s}$ 分别为 $\mathrm{S}$ 博弈方为选择一体化、 $\mathrm{C}$ 博弈方选择非一体化策略时双方的收益, 其中 $\Delta V_{c s}$ 表示 $\mathrm{S}$ 方实施一体化策略时所带来整体利益的增加值, 此时 $\mathrm{S}$ 方的收益比双方都选择非一体化策略时要多, 是他们选择一体化行为的犒赏; $C_{c s}$ 表示 C 方没有选择采取一体化所带来的机会成本的损失, 再加上钢铁行业是一个垄断竞争市场, 即一方利润的增加就会带来另一方收益的减少为 $C_{c s}$ 。同理, $\pi_s-C_{s c}, \pi_c+\Delta V_{s c}$ 分别为 $\mathrm{S}$ 方选择非一体化、C 方选择一体化策略时双方的收益。

2.3模型求解

假设: 在长期的进化过程中, $\mathrm{S}$ 方选择一体化策略的比例 $x_1=x$ , 选择非一体化的比例 $x_2=1-x ; \mathrm{C}$ 群选择一体化行为比例 $y_1=y$ , 选择非一体化行为比例 $y_2=1-y$ , 则 $\mathrm{S}$ 群采用一体化策略时的适应度为:

f_{s} (R, J) = y (π_{s} + Δ V_{s}) + (1 - y) (π_{s} - C_{s c})

$f_s(R, J)=y\left(\pi_s+\Delta V_s\right)+(1-y)\left(\pi_s-C_{s c}\right)$

$\mathrm{S}$ 博弈方采用非一体化策略时的适应度为:

f_{s} (T, J) = y (π_{s} + Δ V_{c s}) + (1 - y) π_{s}

$f_s(T, J)=y\left(\pi_s+\Delta V_{c s}\right)+(1-y) \pi_s$

博弈方 $\mathrm{S}$ 的平均适应度为:

\bar{f_{s}} = x f_{s} (R, J) + (1 - x) f_{s} (T, J)

$\overline{f_s}=x f_s(R, J)+(1-x) f_s(T, J)$

因此, 博弈方 $\mathrm{S}$ 选择一体化策略的重复动态方程为:

\begin{matrix} \frac{d x}{d t} = x [f_{s} (R, J) - \bar{f_{s}}] \\ \frac{d x}{d t} = x (1 - x) [(Δ V_{s} - Δ V_{c s} + C_{s c}) y - C_{s c}] \end{matrix}

$\begin{gathered} \frac{d x}{d t}=x\left[f_s(R, J)-\overline{f_s}\right] \\ \frac{d x}{d t}=x(1-x)\left[\left(\Delta V_s-\Delta V_{c s}+C_{s c}\right) y-C_{s c}\right] \end{gathered}$

同理, 博弈方 $\mathrm{C}$ 选择一体化行为的重复动态方程为:

\frac{d y}{d t} = y (1 - y) [(Δ V_{c} - Δ V_{s c} + C_{c s}) y - C_{c s}]

$\frac{d y}{d t}=y(1-y)\left[\left(\Delta V_c-\Delta V_{s c}+C_{c s}\right) y-C_{c s}\right]$

方程 (1) 和 (2) 刻画了系统的群体动态变化。基于 Friedman (1991) 给出的方法,该系统在平面 $\{(x, y) \mid 0 \leq x, y \leq 1\}$ 的局部均衡点有 5 个, 为 $O(0,0) 、 A(1,0) 、 B(0,1)$ 、 $C(1,1)$ 和 $D\left(x_D, y_D\right)$ 其中:

X_{D} = \frac{C_{s c}}{Δ V_{s} - Δ V_{c s} + C_{s c}}, y_{D} = \frac{C_{c s}}{Δ V_{c} - Δ V_{s c} + C_{c s}}

$X_D=\frac{C_{s c}}{\Delta V_s-\Delta V_{c s}+C_{s c}}, \quad y_D=\frac{C_{c s}}{\Delta V_c-\Delta V_{s c}+C_{c s}}$

在这 5 个局部平衡点中, 仅有 $O, C$ 两个是进化稳定策略, 分别对应两个博弈群体同时实施一体化或者非一体化策略, 该系统还有两个不稳定均衡点 $A, B$ , 及鞍点 $D$ ，见图1。

图1	图2

图2刻画了两个群体博弈的演化动态过程, $A, B$ 及鞍点 $D$ 连成的折线为临界线, 即折线的右上方 (区域 $A D B C$ ) 收玫于一体化; 在折线的左下方 (区域 $A D B O$ ) 收敛于非一体化。

2.4 演化结果

从上图可知, (1) 系统演化博弈的结局可能是完全一体化, 也可能是非一体化 (原地踏步), 如何发展取决于博弈的赢得矩阵; （2）在某种机制引导下（诸如行业政策）,系统演化发展与博弈发生时的初始状态有关。
用 $\delta_s, \delta_c$ 来表示两个群的贴现因子, 且 $0 \leq \delta_s, \delta_c \leq 1$ , 贴现因子可诠释为博弈方对未来演化产生的超额利益的重视程度, 根据罗宾斯坦定理（Rubinstein, 1982）, 演化博弈的结果为:

\begin{matrix} Δ V_{s} = \frac{1 - δ_{c}}{1 - δ_{s} δ_{c}} Δ V Δ V_{c} = \frac{δ_{c} (1 - δ_{s})}{1 - δ_{s} δ_{c}} Δ V \\ x_{D} = C_{s c} / [\frac{1 - δ_{c}}{1 - δ_{s} δ_{c}} Δ V - Δ V_{c s} + C_{s c}] \\ y_{D} = C_{s c} / [\frac{δ_{c} (1 - δ_{s})}{1 - δ_{s} δ_{c}} Δ V - Δ V_{s c} + C_{c s}] \end{matrix}

$\begin{gathered} \Delta V_s=\frac{1-\delta_c}{1-\delta_s \delta_c} \Delta V \quad \Delta V_c=\frac{\delta_c\left(1-\delta_s\right)}{1-\delta_s \delta_c} \Delta V \\ x_D=C_{s c} /\left[\frac{1-\delta_c}{1-\delta_s \delta_c} \Delta V-\Delta V_{c s}+C_{s c}\right] \\ y_D=C_{s c} /\left[\frac{\delta_c\left(1-\delta_s\right)}{1-\delta_s \delta_c} \Delta V-\Delta V_{s c}+C_{c s}\right] \end{gathered}$

从上式可看出, 影响系统演化结果的变量为: 超额利润 $\Delta V$ 、博弈各方为一体化策略所付出努力成本、双方的贴现因子 $\delta_s, \delta_c$ 。若 $\Delta V_s<\Delta V_{c s}$ , 那么 $x_D$ 的分母小于 $C_{s c}$ , 亦即 $x_D>1$ , 这样 $D\left(x_D, y_D\right)$ 不在相平面内, 实际博弈不会出现; 同理 $\Delta V_c<\Delta V_{s c}$ 也不会发生, 所以只考察 $D\left(x_D, y_D\right)$ 在相平面内的情形。
（1）企业倾向一体化会产生超额利润 $\Delta V$ , 见图2, 当发生的超额利润越大时, $\mathrm{ADBC}$ 区域的面积也将越大, 系统演化到均衡点 $\mathrm{C}$ 的概率增加。在策略实施中, 要求钢铁企业要密切关注市场需求, 提高其产品的附加值, 保证产品和服务及时准确地传递, 以追求一体化价值最大化。
(2) $C_{c s}, C_{s c}$ 越小, 见图2, ADBC 区域的面积也越大, 从而系统演化到 C 点的概率越大, 博弈双方就越愿意采用一体化策略; 同理, $C_{c s}, C_{s c}$ 越大, $\mathrm{ADBC}$ 区域的面积变小, 系统演化于 $C$ 点的概率就会越小。
（3）贴现因子 $\delta_s, \delta_c$ 越大, 表明未来博弈收益对其效用增大, 而当贴现因子越小时,博弈方更重视眼前利益。从图2可得, $\delta_s, \delta_c$ 值越大, 折线上方的面积就越大, 系统演化到 $C$ 点的概率就越大。

2.5钢铁产业一体化发展

钢铁制造产业是天津、河北两地重合度较高的行业，在实际生产过程中存在着严重的竞争，天津钢铁制造行业一体化设计是顺应时代发展且必须进行的。天津应优化发展先进制造业，延伸钢铁产业链的宽度和深度。钢铁工业要积极地由劳动密集型产业向技术密集型产业转型，多方面立体化发展。京津冀三地要不断推进协调、信息共享、资源共享机制，建立完善的、经济的、可持续的产业成果分享政策。不断完善相关法律法规，建立更加便利的跨区域投资机制。政府要向这方面积极探索努力，为京津冀一体化发展创造更加便利的配套环境。　

三、演化博弈Python代码

import matplotlib.pyplot as plt
from pylab import *
plt.rcParams['axes.unicode_minus']=False  #用于解决不能显示负号的问题
mpl.rcParams['font.sans-serif'] = ['SimHei']
import random
 
#各博弈主体动态复制方程，**应根据自己所构建的模型的复制动态方程进行相应的修改！！！**
def f(x,y):
    return x*(1-x)*(5*y+Z-2.5)
def g(x,y):
    return y*(1-y)*(4*x+Z-2)
 
#initX-x初始值
#initY-y初始值
#dt-步长
#epoch-迭代次数
def calculateValue(initX, initY, dt, epoch):
    x = []
    y = []
    
    #演化初始赋值
    x.append(initX)
    y.append(initY)
    
    #微量计算及append
    for index in range(epoch):
        tempx = x[-1] + (f(x[-1],y[-1])) * dt
        tempy = y[-1] + (g(x[-1],y[-1])) * dt
 
        x.append(tempx)
        y.append(tempy)
    return (x, y)
 
 
p1 = plt.figure(figsize=(14,7))
plt.subplots_adjust(wspace=0.23)
 
#-----
 
Z = -0.5
D=[]
for index in range(200):
    random_a=random.random()
    random_b=random.random()
    d=calculateValue(random_a,random_b,0.001,1000)
    D.append(d)
 
p1.add_subplot(1,2,1)
 
for n,m in D:
    plt.plot(n,m)
 
    
plt.title("Z=-0.5",fontsize=25)
plt.ylabel("$y$",fontsize=25)
plt.xlabel("$x$",fontsize=25)  
plt.tick_params(labelsize=25)
plt.xticks([0,0.2,0.4,0.6,0.8,1])
# plt.title("Phase space")
plt.grid(linestyle=":",color="b",linewidth=1)
#-----
 
Z = 1
D=[]
for index in range(200):
    random_a=random.random()
    random_b=random.random()
    d=calculateValue(random_a,random_b,0.001,1000)
    D.append(d)
 
p1.add_subplot(1,2,2)
 
for n,m in D:
    plt.plot(n,m)

plt.title("Z=1",fontsize=25)
plt.ylabel("$y$",fontsize=25)
plt.xlabel("$x$",fontsize=25)  
plt.tick_params(labelsize=25)
plt.xticks([0,0.2,0.4,0.6,0.8,1])
# plt.title("Phase space")
plt.grid(linestyle=":",color="b",linewidth=1)
 
plt.savefig("test",dpi=300,bbox_inches ="tight")
plt.show()

总结

演化博弈论 (Evolutionary Game Theory)不再将人模型化为超级理性的博弈方，而是认为人类通常是通过试错的方法达到博弈均衡的，与生物进化原理具有共性，所选择的均衡是达到均衡的均衡过程的函数，因而历史、制度因素以及均衡过程的某些细节均会对博弈的多重均衡的选择产生影响。演化稳定策略是指在博弈的过程中,博弈双方由于有限理性,博弈方不可能一开始就找到最优策略以及最优均衡点。于是,博弈方在博弈的过程中需要不断进行学习,有过策略失误会逐渐改正,并不断模仿和改进过去自己和别人的最有利策略。经过一段时间的模仿和改错,所有的博弈方都会趋于某个稳定的策略。演化稳定策略更关注群体动态演化，通过建立数学模型揭示了博弈的复杂的进化动态，该理论对于生物学、经济学、金融学和证券学等学科均大有用场。