会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
一丨
博客园
首页
新随笔
联系
订阅
管理
2021年10月12日
Game Theory and Multi-agent Reinforcement Learning笔记 下
摘要: 三、顺序博弈 马尔可夫博弈中的强化学习 值迭代 在多智能体Q学习方法中,智能体不是简单地学习估计每个状态动作对的Q(s,a),而是给出采取联合动作 状态s中的动作α= a1,...,an来估计Q(s,a)。智能体对其在州s中采取行动时将获得的未来奖励没有一个单一的估计。在学习过程中,agent选择一
阅读全文
posted @ 2021-10-12 22:37 一丨
阅读(192)
评论(0)
推荐(0)
编辑
公告