摘要: 一、引言 多智能体强化学习的标准模型: 多智能体产生动作a1,a2.....an联合作用于环境,环境返回当前的状态st和奖励rt。智能体接受到系统的反馈st和ri,根据反馈信息选择下一步的策略。 二、重复博弈 正规形式博弈 定义:正规形式的博弈是一个元组(n,A1,...,n,R1,...,n) n 阅读全文
posted @ 2021-10-11 20:37 一丨 阅读(214) 评论(0) 推荐(0) 编辑