《Quantifying the effects of environment and population diversity in multi-agent reinforcement learning》 2022-AAMAS

量化多智能体强化学习中环境和种群多样性的影响

总结：

在多种实验环境下评估多智能体强化学习受到环境多样性以及智能体多样性的影响，主要是泛化能力
实验过程主要是通过改变训练智能体的数量和环境

环境：

HavestPatch：具有特殊空间限制的Harvest，具有惩罚光束，将玩家短暂移出游戏
Traffic Navigation：

多个玩家在地图中寻找属于自己的终点，发生碰撞则会扣除一定的奖励，到达目标位置获得奖励。一旦有一名玩家到达自己的目标位置，所有目标位置都会重新刷新
Overcooked：合作做菜游戏，做菜三个步骤，放入原料，煮好的菜放到盘子上，最后上菜，成功上菜一盘玩家都会获得奖励
Capture the Flag：争夺旗帜游戏，分为两个团队，团队成员可以随意移动标记敌方并争夺敌方旗帜，旗帜数量为最后的奖励评判标准

posted @ 2023-01-06 20:40 lanthanume 阅读(52) 评论(0) 收藏举报

刷新页面返回顶部