RLChina2022公开课-博弈论

纯博弈:

单纯的动机组合,离散的集合

混合博弈:

加入了概率论,以百分比的概率执行不同的的动机。,概率分布

零和博弈、合作博弈、协同博弈

扩展博弈和非完美信息

扩展博弈、贝叶斯博弈

纳什均衡

任何一位玩家在此策略组合下单方面改变自己的策略(其他玩家策略不变)都不会提高自身的收益。

帕累托最优(Pareto Optimality)

从一种分配状态到另一种状态的变化中,在没有使任何人境况变坏的前提下,使得至少一个人变得更好,这就是帕累托改进或帕累托最优化
纳什均衡与帕累特最优的比较
纳什均衡是一个稳定点,但不一定是最优点
帕累特最优是局部较好的一个点,并不代表有多稳定。

前面的博弈里面都有纳什均衡
扩展博弈里面:SPNE

贝叶斯博弈纳什均衡
把隐藏信息保存到一个概率空间
大家不知道隐藏信息具体值,但是知道概率分布

纳什均衡的时间复杂度

PPAD为基石

重复博弈:

联盟博弈

总结

posted @ 2023-07-17 21:05  仔仔的棒棒糖  阅读(75)  评论(0编辑  收藏  举报