「博弈论」耶鲁大学公开课笔记

入门结论#

1.不要选择严格劣势策略(不管对方选择什么,你的选择都比另一个选择更劣)

2.理性选择导致次优结果

3.汝欲得之,必先知之(知道你的目的

4.学会换位思考对手

5.耶鲁大学学生都是自私鬼(娱乐向

经典案例:囚徒困境

A/Bαβα0,03,1β3,11,1

如上选择及打分条件(每个位置前一个数字是A得分,后一个是B得分),那么AB的最优策略应该选α,因为无论对方选什么,选α都比选β收益更大

得出了结论1:不要选择严格劣势策略

大家都选β每人都能得到1分,但因为心理黑暗等原因理性的人们趋向于选α,所以结论2:理性选择导致次优结果

若你是A,由于情绪、喜好等因素,你眼中的得分变成了如下情况

A/Bαβα0,01,3β3,11,1

此时你要做出选择的话,要先知道自己的选择在考虑了各种因素后的最终收益(表2),而不是开始时给出的表面收益(表1)

结论3:汝欲得之,必先知之

若你的对手没有心,它的表仍然是1,而你是善良美少女,你的表已经变成了2,那么在你的对手眼中,评分表如下:

A/Bαβα0,03,3β3,11,1

此时你的对手一定会选择α

在你的眼中,评分表如下:

A/Bαβα0,01,1β3,11,1

由于你知道你的对手没有心,必定会选择α,那么为了让自己收益更高,你也应该选择α,结论4:学会换位思考对手

博弈要素#

参与人(表述法)i、策略si,策略集合Si,某一次博弈s,策略组合(某次博弈中所有人的策略)、收益Ui(s)

si 除了i之外所有人的策略

严格优势策略:U(sisi)>U(si,si)对所有si成立

弱优势:U(si,si)Usi,si对所有si成立,U(si,si)>Usi,si)对至少一个si成立

共同知识#

数字游戏:在1100中选择一个数字写下,最接近所有人写下数字的平均数的23的人可以获得奖励

那么在任何情况下,67以上的数字都不应该被选择,因为他们是严格劣势策略

如果你是理性的,而且你知道和你同台竞技的人都是理性的,那么67以上的数字已经出局了,现在再审视这个游戏,45以上的数字同样不应该被选择

在进行迭代剔除后,最后理性人之间的游戏应该都选择1

在这个游戏中,剔除45以上数字的前提是,你知道67以上的数字不应该选,你知道你的同伴是理性的他们不会选67以上的数字,你的同伴知道你是理性的不会选67以上的数字,你知道你的同伴知道你是理性的……

我们称这种相互知道的事情为共同知识

注意以下情况:

给两个人分别戴上一顶粉色帽子,每个人能看见对方帽子颜色但不能看见自己的,那么,游戏中至少有一顶粉色帽子是共同知识吗?

实际上不是

因为比如A知道B是粉色帽子,他知道游戏中至少有一顶粉色帽子这个事实,但是他也许会认为自己是一顶蓝帽子,他会认为B因为只能看到自己的蓝帽子而不认为游戏中至少有一顶粉色帽子,所以A知道而A不能确定B知道的事情不是共同知识

迭代剔除与中位选民定理#

有两个候选人与十种立场110,每个立场有10%支持,每个立场的支持者会支持与他们立场最相近的候选人,候选人如何选择立场使得自己获得的选票更多?

容易发现立场2相比与立场1来说,是一个弱优势策略,相比之下我们是不会选择立场1的(立场10同理)

在剔除了立场1的选择之后,我们发现立场3相较立场2又是一个弱优势策略,我们同样不会选择立场2

要注意的是这个假设是建立在立场1已经排除的情况下,否则若立场1未被排除,在对手选择立场1的情况下立场2要优于立场3,也就是要确保立场1是劣势策略是共同知识

在迭代剔除后,我们的选择只剩下了立场56

这是中位选民定理,越中立的候选人越能获得大多数支持

现实中影响因素很多,不完全符合模型

但并不意味着模型是无意义的,我们可以通过添加因素看看模型预测结果的变化,来理解因素对结果的影响是如何体现的

最佳对策#

1.

参与人i的策略si^是对手的策略Si的最佳对策(BR

U(si^,Si)U(si,Si)对参与人的所有si都适用

si^>max{U(si,Si)}

2.

参与人i的策略si^是对对手的可能采取的策略P时的最佳对策(BR

EU(si^,P)EUsi,P)对参与人的所有si都适用

si^>max{EU(si,P)}

不要选择非最佳对策的策略

例如:

A/Bαβα9,94,4β6,66,6γ4,49,9

函数

可以发现在对手的任何策略下,β都不是最佳对策,所以β应该被排除

纳什均衡#

假设一家公司利润两人平分,每个人可以选择为公司贡献s=[0,4]的工作时间(注意此处的策略是连续的,可以选择04间的任何数字)

公司总收益为w=4(s1+s2+bs1s2)

若无bs1s2项,合作将无意义

收益:U1=(s1,s2)=w2,成本s12

由于决策连续,我们不能对每个决策列出一条曲线

U(s1,s2)=2(s1+s2+bs1s2)s12

求导

U=2(1+bs2)2s1^=0

为了确定它是最大值还是最小值需要求二阶导

U=2<0说明上述是最大值

解出一阶导

s1^=1+bs2=BR1(s2)

同理

s2^=1+bs1=BR2(s1)

假设此时b=14

s1^=1+s24=BR1(s2)
s2^=1+s14=BR2(s1)

对二者列出函数

根据不要选非最佳对策,任何人都不会选择小于1和大于2的部分

所以我们的视线缩小到1*1范围的框内

在迭代剔除后,最终的最佳对策是两函数交点

s1^=s2^=11b

交点被称作纳什均衡点

任何人都不愿意偏离纳什均衡点

在偏离纳什均衡点的过程中,比如上述合作,偏离的越远,那么玩家的边际效应递减

有时结果会趋近纳什均衡点

如我们多次玩猜数字游戏,在不提及纳什均衡点的前提下,结果会不断趋近1

正式定义:

纳什均衡NE

一个策略集合S=s1,s2sm对于任意参与其中的玩家i所选择的策略si是其他参与人所选策略的最佳对策Si

实施纳什均衡的动机(听不懂)

1.不后悔

2.纳什均衡可以被想象成自我实施的信念(几个人都认为事情会向纳什均衡发展,那么事情就一定会向纳什均衡发展)

找纳什均衡点:

A/Babcα0,22,34,3β11,13,20,0γ0,31,08,0

BR(a)=β,BR(b)=β,BR(c)=γ
BR(α)=c,BR(β)=b,BR(γ)=a

那么(b,β)是纳什均衡点,因为在这一点,两个玩家都选择了最佳对策

严格劣势策略不会出现在纳什均衡里,弱劣势策略不一定

投资博弈#

先猜后证:人数很多 策略不多

预测:如果一开始投资概率超过阈值,那么博弈将会趋近于较优的纳什均衡,如果一开始低于阈值,那么博弈将会趋近于较劣的纳什均衡

但较劣的纳什均衡和囚徒困境不同,因为这里 没有严格劣势策略

协调博弈,如果协调成功就到了较优的纳什均衡没有人会反悔,但经常有协调谬误

银行挤兑:

银行有两种纳什均衡,较优均衡是大家对银行有信心而存钱

较劣均衡是人们对银行失去信心疯狂提款

协同谬误不同,仅凭沟通而非合同就可以改善结果

交流可以改变纳什均衡,约束才能改变囚徒困境

这和领导力紧密联系,协调博弈是领导力的用武之地

在投资中别人越投资你就越想投资

这种别人付出越多你就付出越多的博弈叫做策略互补博弈

性别大战#

A/Babca2,10,00,1b0,01,20,1c1,01,02,2

c电影是严格劣势策略

而两人都看ab电影都是纳什均衡

这是一个每参与者爱好不同的纳什均衡,这很容易导致协调失败

古诺双寡头模型#

前提:学习过怎么在参与者较少且策略不多的博弈中找到纳什均衡

这个博弈介于经济学导论的两种极端情况之间:完全竞争和垄断

研究市场如何发展 对消费者有利还是生产者有利

策略:同质商品的产量,连续,用q来表示策略

生产成本:cq,边际成本是常数c

市场价格:p=ab(q1+q2)

利润:w=pq1cq1=aq1bq12bq1q2cq1

2的生产数量确定时我们要找出1的最佳产量

求导后令导数等于零之类的

q1^=ac2bq22
q2^=ac2bq12

边际收入等于边际成本的那点是垄断产量

根据纳什均衡定义大力找函数交点

posted @   lovelyred  阅读(1618)  评论(0编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】
点击右上角即可分享
微信分享提示
CONTENTS