《Exploring the Benefits of Teams in Multiagent Learning》 2022-IJCAI
探索团队在多智能体学习中的收益
总结:
- 在传统的多智能体学习下提出创建团队模型的概念,研究在多智能体组中存在团队对促进合作和提高整体收益的影响。本质上是将一个多智能体系统划分为多个不直接竞争的团队并且不采用集中控制,为了使一个团队中的智能体具有共同利益,采用了特殊的智能体奖励处理。
环境:
- 重复囚徒困境(IPD)
- cleanup
具体实现:
- 传统奖励函数
- 团队划分,一个团队具有共同利益(本文中限制每个团队大小是相等的)
- 改变成具有共同利益的奖励函数,与团队伙伴的状态相关
- 替换状态价值函数中的奖励函数
于是从个体训练转为团队训练,个体要学习的策略是最大化自己所在团队的利益 - 后续可以修改团队大小一些设定进行改变