2021 年 10月 12 日随笔档案 - 一丨

2021年10月12日

Game Theory and Multi-agent Reinforcement Learning笔记下

摘要：三、顺序博弈马尔可夫博弈中的强化学习值迭代在多智能体Q学习方法中，智能体不是简单地学习估计每个状态动作对的Q(s,a)，而是给出采取联合动作状态s中的动作α= a1,...,an来估计Q(s,a)。智能体对其在州s中采取行动时将获得的未来奖励没有一个单一的估计。在学习过程中，agent选择一阅读全文

posted @ 2021-10-12 22:37 一丨阅读(192) 评论(0) 推荐(0) 编辑

一丨

公告