博弈论
为啥a有4个策略而b有3个策略?
看到下面(树->矩阵)这个就了然了:
强化学习的根本目的在于最大化奖励【optimize your long term expected reward(获得更多的奖励)】
MiniMAx
假设所有人都在寻求最优,达到最大化奖励
来吧,再加点不确定性进来~~愉快的玩耍吧~~~:
Von Neumann冯·诺依曼提出的,哇塞,大牛就是腻害!!无处不在~~
ok,之前都是纯策略问题,下面再来看看综合策略问题~上图
Nash均衡: n repeated game => n repeated N.F.
零和博弈和非零和博弈
反复博弈、囚徒困境
MDP:RL::
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 解答了困扰我五年的技术问题
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
· DeepSeek 解答了困扰我五年的技术问题。时代确实变了!
· PPT革命!DeepSeek+Kimi=N小时工作5分钟完成?
· What?废柴, 还在本地部署DeepSeek吗?Are you kidding?
· DeepSeek企业级部署实战指南:从服务器选型到Dify私有化落地
· 程序员转型AI:行业分析