博弈论

为啥a有4个策略而b有3个策略？

看到下面（树->矩阵）这个就了然了：

强化学习的根本目的在于最大化奖励【optimize your long term expected reward(获得更多的奖励)】

MiniMAx

假设所有人都在寻求最优，达到最大化奖励

来吧，再加点不确定性进来~~愉快的玩耍吧~~~：

Von Neumann冯·诺依曼提出的，哇塞，大牛就是腻害！！无处不在~~

ok，之前都是纯策略问题，下面再来看看综合策略问题~上图

Nash均衡： n repeated game => n repeated N.F.

零和博弈和非零和博弈

反复博弈、囚徒困境

MDP：RL：：

posted @ 2016-06-05 18:10 python挖掘阅读(2333) 评论(0) 收藏举报

刷新页面返回顶部

come_on