摘要: 奖励成分在多智能体学习中的重要性 总结: 探索智能体的奖励结构成分对多智能体系统合作程度和群体收益的影响,本质上是将智能体的奖励结构划分为个体奖励、团队奖励以及全局奖励三个部分,探索不同的比例对结果的影响。 环境: 重复囚徒困境 cleanup 具体实现: 奖励结构: 个体奖励,从环境获得 团队奖励 阅读全文
posted @ 2023-01-13 17:26 lanthanume 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 探索团队在多智能体学习中的收益 总结: 在传统的多智能体学习下提出创建团队模型的概念,研究在多智能体组中存在团队对促进合作和提高整体收益的影响。本质上是将一个多智能体系统划分为多个不直接竞争的团队并且不采用集中控制,为了使一个团队中的智能体具有共同利益,采用了特殊的智能体奖励处理。 环境: 重复囚徒 阅读全文
posted @ 2023-01-13 15:16 lanthanume 阅读(17) 评论(0) 推荐(0) 编辑