摘要: 多智能体元梯度强化学习的自适应激励设计 总结: 提出了一种基于元梯度的多智能体强化学习自适应奖励机制,解决了较为复杂的多智能体强化学习下的奖励机制问题,最终证明该方法可以收敛至已知的全局最优解。 环境: Escape room、Cleanup 具体实现过程: 本质上是解决双层优化问题 在理想情况下一 阅读全文
posted @ 2023-01-06 23:52 lanthanume 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 量化多智能体强化学习中环境和种群多样性的影响 总结: 在多种实验环境下评估多智能体强化学习受到环境多样性以及智能体多样性的影响,主要是泛化能力 实验过程主要是通过改变训练智能体的数量和环境 环境: HavestPatch:具有特殊空间限制的Harvest,具有惩罚光束,将玩家短暂移出游戏 Traff 阅读全文
posted @ 2023-01-06 20:40 lanthanume 阅读(21) 评论(0) 推荐(0) 编辑