摘要: 三、顺序博弈 马尔可夫博弈中的强化学习 值迭代 在多智能体Q学习方法中,智能体不是简单地学习估计每个状态动作对的Q(s,a),而是给出采取联合动作 状态s中的动作α= a1,...,an来估计Q(s,a)。智能体对其在州s中采取行动时将获得的未来奖励没有一个单一的估计。在学习过程中,agent选择一 阅读全文
posted @ 2021-10-12 22:37 一丨 阅读(164) 评论(0) 推荐(0) 编辑