摘要: 基于策略相似度的零样本协调表现改进 总结: 这篇论文本质上是研究智能体的泛化性能,文中涉及的问题是在一个常规多智能体系统中的智能体如果要与新加入的或者说没有交互过的智能体一起训练的协调能力比较差,从而导致合作程度不够影响收益。文章针对这个问题先是研究了影响智能体协调能力的参数之后利用该参数采取特殊的 阅读全文
posted @ 2023-02-24 19:19 lanthanume 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 通过互相帮助促进多智能体强化学习中的合作 总结 该篇文章主要是提出了一个新的多智能体强化学习算法,目的是为了提高合作程度和总社会奖励。具体实现基于传统Actor-Critic模型,添加了一个预测动作模块让智能体基于预测其他智能体的动作来进行下一步动作,达到不损害自身利益的前提下有选择的互相帮助促进合 阅读全文
posted @ 2023-02-23 21:11 lanthanume 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 在复杂序贯社会困境中学习互惠 总结 这篇论文主要是提出了一个在线学习的模型展示如何在序贯困境中学习互惠行为,模型包括创新者和模仿者两种代理。 相比于传统的Tit-for-Tat的互惠模型,其优点在于不再是简单的模仿二元动作合作和背叛,可以扩展到多人困境中不局限与二人囚徒困境 实验环境 Harvest 阅读全文
posted @ 2023-02-11 09:01 lanthanume 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 致力于序贯囚徒困境中的合作:一种多智能体深度强化学习的方法 总结 主要是针对复杂的序贯囚徒困境的合作提出的方法,目的是为了提高合作程度最终达到提高社会总收益的。该方法主要包括两阶段,第一阶段是离线生成策略阶段,运用普通的强化学习算法先单独计算每个智能体的策略之后整合,其中智能体的策略不是简单的非合作 阅读全文
posted @ 2023-02-10 18:57 lanthanume 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 奖励成分在多智能体学习中的重要性 总结: 探索智能体的奖励结构成分对多智能体系统合作程度和群体收益的影响,本质上是将智能体的奖励结构划分为个体奖励、团队奖励以及全局奖励三个部分,探索不同的比例对结果的影响。 环境: 重复囚徒困境 cleanup 具体实现: 奖励结构: 个体奖励,从环境获得 团队奖励 阅读全文
posted @ 2023-01-13 17:26 lanthanume 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 探索团队在多智能体学习中的收益 总结: 在传统的多智能体学习下提出创建团队模型的概念,研究在多智能体组中存在团队对促进合作和提高整体收益的影响。本质上是将一个多智能体系统划分为多个不直接竞争的团队并且不采用集中控制,为了使一个团队中的智能体具有共同利益,采用了特殊的智能体奖励处理。 环境: 重复囚徒 阅读全文
posted @ 2023-01-13 15:16 lanthanume 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 多智能体元梯度强化学习的自适应激励设计 总结: 提出了一种基于元梯度的多智能体强化学习自适应奖励机制,解决了较为复杂的多智能体强化学习下的奖励机制问题,最终证明该方法可以收敛至已知的全局最优解。 环境: Escape room、Cleanup 具体实现过程: 本质上是解决双层优化问题 在理想情况下一 阅读全文
posted @ 2023-01-06 23:52 lanthanume 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 量化多智能体强化学习中环境和种群多样性的影响 总结: 在多种实验环境下评估多智能体强化学习受到环境多样性以及智能体多样性的影响,主要是泛化能力 实验过程主要是通过改变训练智能体的数量和环境 环境: HavestPatch:具有特殊空间限制的Harvest,具有惩罚光束,将玩家短暂移出游戏 Traff 阅读全文
posted @ 2023-01-06 20:40 lanthanume 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 在序贯社会困境中学习同质性激励 总结: 由于在类似harvest这种困境中,带有惩罚功能的智能体惩罚他人会付出代价,由此可能引发第二层级的搭便车行为,即都不想进行惩罚动作付出小代价,那么最终困境将无法得到解决,最终导致合作行为地不稳定。为了解决上述问题,论文提出了利用同质性激励的方案,即具有相似行为 阅读全文
posted @ 2022-12-24 02:05 lanthanume 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 混合动机强化学习中的社会多样性与社会偏好 总结: 本质是在研究当智能体群体中的个体具有独特性质时在困境强化学习中对结果的影响。提出了一个社会价值偏向取向的概念来使得群体中的智能体异质之后进行对比实验,实质上还是对奖励函数的更改,但是奖励函数具有多种形式,不是具体的。 环境: Harvest Patc 阅读全文
posted @ 2022-12-23 20:32 lanthanume 阅读(31) 评论(0) 推荐(0) 编辑