对策论——矩阵对策求解示例(四)

矩阵对策是指处于利益竞争的两个关系主体,各自可选的策略有限,且在一局对策中双方得失和为零的现象,即要不成功,要不失败。对策中,一方真正成功的措施应该是,针对对方所采取的行为相应地制定有利于自己的应对策略,各方选择的策略必定是自己对对方策略预测的最佳反映。这里学习矩阵对策混合纳什均衡的求解方法。

一 超优原则

若矩阵A 中第i行元素均不小于第j 行对应元素,则称局中人I 的纯策略αi 超优于αj。推广一下,超优者也可以是若干纯策略的线性组合。
如果局中人I 的纯策略αi 被其它纯策略或若干纯策略的线性组合超优时,可以将αi删去而不影响结果,称为超优原则。超优原则在一些情况下可以简化计算。

超优原则揭示了局中人的占优策略和劣策略:
占优策略:是指不论对手选择什么,自己的某个策略都不比其他策略差的策略。如果自己的某个策略严格强于(收益大于)任何其他策略,那么该策略还被称为严格占优策略。劣策略:是指不论对手选择什么,自己都不会选择的策略。对于劣策略。可以直接剔除以简化博弈,如果剔除到最后只留下唯一一个策略组合,那么这个策略组合就是我们说的重复剔除严格劣策略均衡。如果存在重复剔除严格劣策略均衡,那么我们说这个博弈是重复剔除劣策略可解的。

例1 设矩阵对策的收益矩阵为A,试简化这个博弈。

A=β1β2β3β4β5α1α2α3α4α5[32030502597395946875.560883]

Aα3α2,α4α1[7395946875.560883]β1β3α3α4α5[73594675.56083]β1β2β4β5β2β4α3α4α5[739465.5603]β1β2β5α3α5,β1β5α3α4[7346]β1β2

二 图解法求纳什均衡

图解法通过图示局中人的期望收益,寻找期望收益的最小或最大,最后求出纳什均衡的方法,其思想是最大最小定理4的图形应用,用于求解2×nm×2矩阵对策问题。对于矩阵对策问题,考虑局中人I的混合策略 (x,1x)T,x[0,1],过数轴上 (0,0),(1,0) 分别作垂线一条,垂线上点的纵坐标值分别表示局中人 I 采取纯策略 α1=(1,0)T,α2=(0,1)T时,参与人I 的赢得值。
当局中人I选择每一策略 (x,1x)T 时,他最少可能收入为所有局中人 II 选择确定的若干条直线在 x 处的纵坐标的最小者。要使得I 在最坏情况下的收入尽可能多,它应当使得直线 x与那若干条直线交出的点的纵坐标最小值最大。这转化成了一个非常直观的问题,作出若干条直线,列方程求解交点坐标,原问题得以解决。
同理可以考虑 m×2的矩阵对策问题,我们将局中人Im种纯策略作出直线,然后考虑每个横坐标处的交点最大值即可。先前提到的超优原则在图解法上的体现则更加直观,对于2×n 矩阵对策问题,若 II 的纯策略 βi超优于 βj,则 i所对应的线段始终不出现在j 的上方。此时它对求解最大的最小值没有任何影响,因此可以删去。当然,删去后虽然最优解的值不变,但可能会导致解集变小。

例2 设矩阵对策的收益矩阵A,求其混合纳什均衡。

A=β1β2β3 α1α2[2311752]

采用图解法求解,建立坐标系,设局中人I的混合策略为(x,1x),x[0,1]

  • 在数轴上坐标为0和1的两点分别做两条垂线
  • 画出局中人II的不同策略下局中人I的赢得线段

β1:VI1=2x+7(1x)β2:VI2=3x+5(1x)β3:VI3=11x+2(1x)

  • 由于局中人I从最小可能收入中选择最大的一个,为局中人I的最优对策B2
  • 求解方程组可得最优混合纳什均衡的值,见图1。
图1 图2

联立过B2点两条直线的方程组为

{ 3x+5(1x)=VG 11x+2(1x)=VG

可得x=3/11,VG=49/11,所以局中人I的最优混合策略为

x=(3/11,8/11)T

同理,参看图2,可知局中人II的混合策略只由β2,β3构成,最优策略y=(0,9/11,2/11)

三 线性方程组求纳什均衡

例3 硬币正反博弈:你正在图书馆枯坐,一位陌生美女主动过来和你搭讪,并要求和你一起玩个数学游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢?问题是,这个游戏公平吗?
每一种游戏依具其规则的不同会存在两种纳什均衡,一种是纯策略纳什均衡,也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面),使得每人都赚得最多或亏得最少;或者是混合策略纳什均衡,而在这个游戏中,便应该采用混合策略纳什均衡。我们在博弈中的收益矩阵为A,下面求其混合纳什均衡,得到各自的期望收益来看博弈是否公平。

A=[3221]

假设我们出正面的概率是x,反面的概率是1x;美女出正面的概率是y,反面的概率是1y。为了使利益最大化,应该在对手出正面或反面的时候我们的收益都相等(不然在这个游戏中,对方可以改变正反面出现的概率让我们的期望收入减少),由此列出方程就是:

根据纳什均衡的定义,可求上面博弈两个局中人策略的最优反应,列表表示如下:

正面 反面 混合策略
正面 3 -2 x
反面 -2 1 1x
混合策略 y 1y

建立线性方程

3y+(2)(1y)=(2)y+1(1y)

解方程得y=3/8

同样,美女的期望收益,列线性方程

3x+2(1x)=2x+(1)(1x)

解得x=3/8

这样就得美女每次的期望收益则是2(1x)3x=1/8 元,从而在双方都采取最优策略的情况下,平均每次美女赢1/8元。只要美女采取(3/8,5/8)这个方案,不论你再采用什么方案,都是不能改变局面的。

四 最大最小定理求纳什均衡

PlayerCRowminimaPlayerRpndpnd[10551110105]5110MaxoftheminimaColumnmaxima1015Minofthemaxima

例4 试用最大最小定理求矩阵博弈的纳什均衡

A=β1β2β3β4 α1α2α3α4[6565142185650262]

A=min[6565142185750262]5150max8575maxmaxminmin

从上面式子可知,博弈有四个纯纳什均衡,分别为

(α1,β2);(α3,β2)

(α1,β4);(α3,β4)

这种纯纳什均衡求法就是定理3的结果,为了和诸多教材贴合且学习的比较与便利,做了简要展示,不再赘述。

五 线性规划求纳什均衡

例5 试用线性规划法求矩阵博弈的纳什均衡

A=[7292909011]

求解矩阵对策的纳什均衡可化为两个互为对偶的线性规划问题

(P){min(x1+x2+x3)7x1+2x2+9x312x1+9x219x1+11x31x1,x2,x30(D){max(y1+y2+y3)7y1+2y2+9y312y1+9y219y1+11y31y1,y2,y30

上述线性规划的解为:

x=(120,110,120)Tw=15y=(120,110,120)Tv=15

故对策问题的解为:

VG=1w=1v=5x=VGx=5(120,110,120)T=(14,12,14)Ty=VGy=5(120,110,120)T=(14,12,14)T

注意:上面可直接对xy(概率分布满足概率和为1)归一化处理,不必求出VG,就可求出博弈的混合策略,计算更为简洁明了。

x=(120,110,120)T=(120,110,120)T1120+110+120=(14,12,14)Ty=(120,110,120)T=(120,110,120)T1120+110+120=(14,12,14)T

如果收益矩阵负元素数量太多,可能导致线性规划无解,这时可给收益矩阵的元素都适当增加同一个正数,使其每一个元素都变为正数,然后求解线性规划即可,不改变最后的混合纳什均衡,参看定理6。

六 总结

矩阵对策是一种最简单、最基本的博弈,说它简单是因为只有两个局中人,且每个局中人都只有有限个策略;说它基本是因为它的一套比较成熟的理论和方法是研究其他各种对策的基础。学习矩阵对策既可以让我们对对策论有一个初步的了解,又可以让我们从中看到矩阵思想的精妙应用。

参考资料

1.对策论——运筹学
2.纳什均衡(Nash equilibrium)及经典案例
3.9.1 Matrix Games (矩阵对策)
4.运筹学-36-对策论(博弈论)-矩阵对策(纯策略、混合策略)

posted @   郝hai  阅读(2897)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
点击右上角即可分享
微信分享提示